Query Analysis 1 - ny23の日記

最初のセッションは，Query Analysis に出た．以下の三本．このセッションは MS が占領．よく見なかったがまあまあ混んでいたので聴衆は50人ぐらいかな．

Exploring Web Scale Language Models for Search Query Processing
Building Taxonomy of Web Search Intents for Name Entity Queries
Optimal Rare Query Suggestion With Implicit User Feedback

例によって適当にまとめる．二つ目と三つ目の発表は他の仕事をしながら聞いていたのでやや聞き逃しているかもしれない．
一つ目の発表は，MS の Web n-gram の宣伝のような発表で，query, title, body, anchor から取り出した n-gram で query を処理する色々なタスクを解いてその効果を確認したよ，という論文．query を test-set とする perplexity で見ると，(better) query < anchor (3-gram 以上見た場合) <= title << body (worse) で，body は全然性質が違うので予想通りの結果．で，タスクは，スペル修正と，クエリ分割（3語の場合は複合名詞のことが多いので bracketing, 4語以上だと segmentation としてモデル化し，別タスクで解いている）．スペル修正は，perplexity から予想される通りの結果で，3-gram 以上を考慮するかしないかで大きな差があるという報告だった．一方クエリ分割に関しては，bracketing の方は，精度で (better) body > anchor >> title ~ query (worse), segmentation は (better) anchor > title ~ body となっていた．データ押しの論文なので手法の細かいところは省略．
二つ目の発表は，bing で左の方に出る NE に対するuser intent (ex. britney spears-> images of britney spears) のための taxonomy をカテゴリごとに自動獲得する話．要は NE を含む query の階層を構成するのだけど，この研究では古典的な PAM (Pachinko Allocation Model) に加えて，directed MST (query 間に belongingness を定義しておいてそれをスコアとして最大化) と hierarchical Agglomerative Clustering (HAC) (ただし，query 間に予め belonging か merge かのタグを貼っておいて併合するときに同一ノードにマージするか子ノードに追加するか制御) を比較して HAC が一番良かったということだった．カテゴリの意味的包含関係は使わないのか？と聞いている人もいた．
三つ目は，query suggestion のタスクで，ユーザが skip した URL を考慮したグラフモデルも考えると性能が上がりましたという話．普通は，query と clicked URL で bipartite graph を作って random walk するところを，検索結果で最後に click した URL までで skip された skipped URL と query との関係を調べたら，clicked URL ほどではないが高い相関があったので，そっちも別に random walk して結果の遷移確率行列を clicked URL のそれと線形結合するということをやっていた（あまりちゃんと聞いていない）．個々の random walk は，random walk with restart というハイパーパラメタのある既存のモデルを使っているのだけど，線形結合のためのハイパーパラメタも含めて，モデルの二つのハイパーパラメタを陽に最適化する方法を提案している辺り，抜かりない感じで好印象でした（手を尽くしている感じで，手法として完成している印象を受ける）．
次のセッションは Query Analysis 2 にしようかとも思ったけど (一つ目の発表の Towards Natural Question-Guided Search は面白そう)，折角だから毛色の違う Infrastructure 2 に出てみよう．