2010-11-01から1ヶ月間の記事一覧

密/疎ベクトルのトレードオフを調べてみた

k-means を実装していて,疎ベクトルと密ベクトルのトレードオフ(距離計算の速度差)が気になったので軽く実験してみた.具体的に知りたかったのは,どれぐらい疎なら疎ベクトルを使った方が距離計算が速くなるか,という問に対する答え.空間使用率の改善…

k-means をさらに速くする

昨日,今日と電車に乗っている時間が長かったので,暇つぶしに論文を読んでいた. Making k-means even faster (SDM 2010) この論文では,Elkan の三角不等式を用いた k-means の高速化手法 Using the triangle inequality to accelerate k-means (ICML 2003…

11月終わった

昨日 1.4h の通勤に 2h かかったので,電車がどうせ止まるなら,座れる時間に行くわい,と思って,11時半頃家を出たら,ちょうどその頃浦和ー赤羽間で人身事故があったらしく,電車が一時間遅延した上に(乗車駅で45分間出発せず,途中駅で15分停車)大宮で…

専門分野外の論文を査読する

先週は,今年の研究が始められていないのを不安に感じつつ,査読をやっていた.ここ数年は,一年辺り,ジャーナルが5本,国際会議が10-20本ぐらいの分量.数的にはさほど多くはないと思うのだけど,査読する論文のほとんど(80%ぐらい?)が自分の専門分野外…

立ち査読は許されるか

通勤時間が片道1.4hと長いので,この時間を活用しないと研究が進まない.満員電車では,座れない限り,できることは論文を読むぐらい(書きながら考える癖がついており,思考実験に耽るのは苦手)なので,(気力があるときは)論文を読むようにしている.乗…

iOS 4.2 にしたら動画のバックグラウンド再生ができなくなった [Workaround]

タイトルそのまま.日常的に通勤時に動画を聴きながら SMS できなくなって困る.市井の声として一応書いておく. [追記] 通りすがりさんから,回避方法を教えて頂きました.適当な音声ファイルと再生したい動画でプレイリストを作成すれば,プレイリスト中の…

小規模データで単語の数を数えてみた (2)

大規模データで単語の数を数える - ny23の日記 でみたように,単純に高頻度の item が欲しい場合には,小規模データで単語の数を数えてみた (1) - ny23の日記 で使った sketch-based なアルゴリズムよりは,counter-based なアルゴリズムの方が(キーを陽に…

小規模データで単語の数を数えてみた (1)

大規模データで単語の数を数える - ny23の日記 で書いた Count-Min Sketch で,誤差を減らすヒューリスティクス (conservative update) New directions in traffic measurement and accounting (SIGCOMM Comput. Commun. Rev., 32(4), 2002) を実装して,動…

class template の中で配列の値初期化が出来ない [gcc 4.6 20101106]

class template の中で int * の値初期化をしようと思った.ところが, #include <iostream> template <typename T> class A { public: A (size_t n) : _dummy () { int * p = new int[n] (); // compile error for (size_t i = 0; i < n; ++i) std::cerr << i << ": " << p[i] << </typename></iostream>…

効率的な実装を自動的に見つけることは可能か

最近は新しいアルゴリズムが提案されると,素早く実装する人が沢山いる.また,色々な実装を比較して情報を公開している人もたくさんいる.いずれにせよ,そこに多分の労力が割かれていることは間違いない.利用者側の立場からすると,「取り敢えず公開され…

次から次へと積まれていく査読の山

週末風邪で寝込んでいる間に,二つの会議の論文の査読が回ってきて,今日ジャーナルの査読の確認が来たと思ったら,さらに別の会議の論文の査読が回ってきた.本数的にはたいしたことないけど,体調がもう一つなのもあって,受けとめきれない.メールの返事…

大規模データで単語の数を数える

大規模データから one-pass で item(n-gram など)の頻度を数える手法に関するメモ.ここ数年,毎年のように超大規模な n-gram の統計情報を空間/時間効率良く利用するための手法が提案されている.最近だと, Storing the Web in Memory: Space Efficient…