Information Extraction

今日も Keynote と Panel の撮影で,参加したのはこのセッションのみ.聴講人数は 60 人ぐらい

  • Relational Duality: Unsupervised Extraction of Semantic Relations between Entities on the Web
  • Automatic Extraction of Clickable Structured Web Contents for Name Entity Queries
  • A Scalable Machine Learning Approach for Semi-Structured Named Entity Recognition

の三つ.昨日に続いて適当にメモ.
一つ目の発表は,教師なしで関係知識をWebから抽出するタスクを解いている.手法的には,関係のペアとパターン(NE の間の文字列)の共起行列を作って,それぞれをクラスタリングするというもので,スケーラビリティを確保するために,頻度の高いものから順に,行と列単位で交互に sequential に(それまで見た行/列から得られた何れかのクラスタとの距離が閾値以下なら)まとめていく(計算量は O(n log n)).Zeta 分布を元に閾値の設定の指針を与えていたり,クラスタに対するラベルの与え方を考察したり,様々な観点で実験を行っていたりと,穴の無い論文という印象で,自分の分野のトップ会議でも通るレベルだと感じた.実際,発表者のダヌシカさんに聞いたところ,査読結果はほぼ全員 A(WA でなく)だったそうだ.質問では,距離関数に何を試したかとか (cosine のみ),教師ありの手法との比較はしてないのかとか,ソフトクラスタリングにはしないのかとか,パターンや NE はどうとったのかとか,基礎的なところも含めて沢山.
二つ目は,あまり関係ないのでスルーした.キーワードだけ言うと Search Trail.
三つ目は,Semi-structured NE (電話番号とか日付みたいなフォーマットにバラツキがある NE)を bootstrap で集めるという話なのだが,手法的にも新規性に乏しいし,どうして通ったのか?な論文だった(多言語で実験しているのが評価されたのだろうか).手法は語彙統語パターンとシードの NE を与えて bootstrap をして(local best (各 iteration でのスコア上位1%)と global best (全 iteration でのスコア上位2%) の抽出文字列を解候補に追加),解候補を正例,それと最も異なる抽出文字列を負例として SVM で分類する.
IE は,教師なしで大規模に,というのがこの学会向きなのかもしれない.学生が聴いていた User Models の方では,タブブラウジングを意識した User Browsing Model (幾つかのサイトに並列で遷移する)の論文 (Stochastic Models for Tabbed Browsing) や,PageRank のパラメタ (リンクを辿る確率; 天下りで0.85を使うことが多い) を Browser History から調べたら実際は 0.6〜0.725 ぐらいだったよ (ブラウザに検索窓が付いたのが大きそう; ちなみにWikipedia だと 0.325〜0.425),という論文 (Tracking the random surfer: Empirically measured teleportation parameters in PageRank) があったみたいだ(以上伝聞なので論文のメインのポイントを外しているかもしれない).こっちの方が面白かったかな?