2010-06-01から1ヶ月間の記事一覧

Mac OS X と Linux で rand () の実装が違うのか

時間計測用のサーバ (Mac OS X 10.5) は 32GB しかメモリがないので,20GB ほどメモリを消費する L1-LLM (SGD) のハイパーパラメタの調整には 256GB のサーバ (Red Hat Enterprise Linux 5.4) を使っていたが,ライブラリまで含めて同じバージョンの gcc (4.…

n-best を数式で表現する方法

集合 の各要素に対して,スコア関数 が定義されているとき,その集合中のスコアの上位 n 要素から構成される部分集合 を数式で書きたくなった(ただし,スコア関数は単射とし, は一意に定まるとする).n-best がタイトルに入った論文などを色々見てみたが…

iPhone で読む (Machine Learning 系) Tutorial スライドの個人的なまとめ

iPhone で論文の pdf を読むのは,iPhone 4 の解像度でも画面のサイズ的に厳しそうなのだけど,スライドなら iPhone 3GS 程度の解像度でもストレスなく読めるので,機械学習系の Tutorial スライドをまとめてみた.NIPS/ICML などはビデオもあるのでそっちを…

降る降る詐欺

梅雨で天気予報が雨雨と言いつつ降らないので,「降る降る詐欺」という言葉を思いついたが,ググってみると,73,700件もヒットして凹んだ orz どこかで見て思い出しただけなのか,同時発生的に思いついたのか.

もっと訓練データを公開してくれないものか

7月2日の締め切りに向けて,カメラレディ論文を直しているのだけど,ふと大規模な訓練データを用いた実験を行いたいと思った.機械学習だと,LIBSVM Dataから適当に引っ張ってくれば済むんだろうけど,自分の分野の分類問題の性質を意識した学習手法なので,…

(Mac OS X での) プロセスの消費メモリの測り方

[追記] (Mac OS X / LINUX での) 外部コマンドの消費メモリのモニタリング - ny23の日記 にて task_info を使う方法を書いた. Mac OS X でプロセスの(最大)消費メモリを測るにはどうすれば良いのだろう.ある時点での消費メモリを知るには,ちょっと調べ…

埼玉はただ住むだけの場所,という感じだなぁ

今日は月・火と風邪休んで病み上がりだったところ,帰りに湘南新宿ラインが運休!してしまったので埼京線で赤羽から乗り換えてボロボロになって帰ってきた.埼玉は,車を持てるという利点はあるが,車ですぐ出かけて楽しいところが(県内に)何も無い(秩父…

素直に喜んでいいのかな,これ

去年出した共著論文で論文賞を受賞したことを書いたが,自分自身は今まで第一著者として賞をもらったことは無かった(第二著者なのに第一著者の代わりに受賞式に出たことは二度あった)のだけど,この間某全国大会に出した論文が大会優秀賞とやらを受賞した…

おまけ

> time ruby -e 'hash = Hash.new(0); f = open("unigram_raw.txt"); while line = f.gets do hash[line.chomp] += 1; end; f.close; hash.each {|k,v| print k, " ", v, "\n"; }' > tmp.ruby ruby -e > tmp.ruby 1461.28s user 4.55s system 99% cpu 24:27.…

追記: sort を使うときは,LC_ALL=C を忘れずに

> wc --lines unigram_raw.txt 290768333 unigram_raw.txtそもそも,たかだか3億要素,1.7Gのデータのソートに,最近のマシンで sort | uniq -c が858分もかかるのは変ですよね. > export LC_ALL=C > time sort -S 2G unigram_raw.txt | uniq -c > tmp.sort…

動的ダブル配列を使って Wikipedia のテキスト処理を高速化

Wikipediaによるテキストマイニング入門など,Wikipedia 中の単語頻度を測るのが流行っているようだ.例えば,Hadoop を使ったり(Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記),ハッシュを使ったり(Hadoopを使わずにWikipediaのテキス…

MapReduce と四身の拳

最近大規模データを処理するのに MapReduce とかがよく使われるのだけど,クラウドなど分散環境を使う人は基礎的なアルゴリズムを書く訓練もした方がいい.そもそも並列・分散系の環境は,最高速のアルゴリズムでも時間がかかる処理を,さらに速くするために…

浅い文解析器と深い文解析器

某資料で速度比較があって,どちらも一番速いものが20文/秒とあったけど,これは単に深い文解析器が速いと言うより,比べている浅い文解析器が遅過ぎるのではないかと思う.係り受け解析ぐらいなら,速いものなら10000文/秒ぐらいは出るでしょう(日本語で…

学会の参加登録時に Workshop のプログラムが分からないのはいかがなものか

航空券が無事取れたので,11日の Early Registration の期限前に参加登録を済ますべく,Workshop のリストを見ていたのだけど,一部の Workshop で論文リストが出ていなかった.ほとんどの参加者は Early Registration すると思うのだけど,論文リストが出て…

捨てるH.I.S.あれば拾うH.I.S.あり

ネットで探すのに疲れたので,やや諦め気味で,旅行代理店に行くことにした.前日に大宮のH.I.S.にメールしたら,昼になっても返事が来なかったので,諦めて新宿のH.I.S新宿本社に. 新宿本社に行くのは初めてだったが,H.I.S.最大店舗?だけあって,デカイ…

やっぱり無くなったか

やっと航空券を手配できるようになったので,7月頭のスウェーデン行き航空券を調べてみたら案の定ほとんど空きがない..orz 20万円以下に抑えられない.一週間前はタイ国際航空はあったのだが.トルコ航空とか嫌だし,オーストリア航空は復路朝7時の便だし,…

専門外の人に説明・アピールするのは大事

オープンキャンパスの二日目.お客さんが次々に来たので,デモの説明を続けた.自分の関与したデモは,超大規模データ+超高速解析+三次元可視化(二番目を主に担当)で,充分楽しんでもらえたと思う(自分のテキストを駆使した CGI 版デモもなかなか受けて…

オープンキャンパス

今週末のオープンキャンパスのため,ここ二週間はずっとその準備に追われていた.やっと人に見せられるレベルのスケール感のあるデモが出来てきた.金曜・土曜日とやっているので,東京にお住まいの方はどうぞ. 頑張って作ったかいがあって,第一日目はデモ…