2010-06-11から1日間の記事一覧

おまけ

> time ruby -e 'hash = Hash.new(0); f = open("unigram_raw.txt"); while line = f.gets do hash[line.chomp] += 1; end; f.close; hash.each {|k,v| print k, " ", v, "\n"; }' > tmp.ruby ruby -e > tmp.ruby 1461.28s user 4.55s system 99% cpu 24:27.…

追記: sort を使うときは,LC_ALL=C を忘れずに

> wc --lines unigram_raw.txt 290768333 unigram_raw.txtそもそも,たかだか3億要素,1.7Gのデータのソートに,最近のマシンで sort | uniq -c が858分もかかるのは変ですよね. > export LC_ALL=C > time sort -S 2G unigram_raw.txt | uniq -c > tmp.sort…

動的ダブル配列を使って Wikipedia のテキスト処理を高速化

Wikipediaによるテキストマイニング入門など,Wikipedia 中の単語頻度を測るのが流行っているようだ.例えば,Hadoop を使ったり(Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記),ハッシュを使ったり(Hadoopを使わずにWikipediaのテキス…