おまけ

研究

> time ruby -e 'hash = Hash.new(0); f = open("unigram_raw.txt"); while line = f.gets do hash[line.chomp] += 1; end; f.close; hash.each {|k,v| print k, " ", v, "\n"; }' > tmp.ruby ruby -e > tmp.ruby 1461.28s user 4.55s system 99% cpu 24:27.…

2010-06-11

追記: sort を使うときは，LC_ALL=C を忘れずに

研究

> wc --lines unigram_raw.txt 290768333 unigram_raw.txtそもそも，たかだか3億要素，1.7Gのデータのソートに，最近のマシンで sort | uniq -c が858分もかかるのは変ですよね． > export LC_ALL=C > time sort -S 2G unigram_raw.txt | uniq -c > tmp.sort…

2010-06-11

動的ダブル配列を使って Wikipedia のテキスト処理を高速化

研究

Wikipediaによるテキストマイニング入門など，Wikipedia 中の単語頻度を測るのが流行っているようだ．例えば，Hadoop を使ったり（Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記），ハッシュを使ったり（Hadoopを使わずにWikipediaのテキス…

ny23の日記

2010-06-11から1日間の記事一覧

おまけ

追記: sort を使うときは，LC_ALL=C を忘れずに

動的ダブル配列を使って Wikipedia のテキスト処理を高速化