Text Mining Session

今日は Keynote と Panel などを撮影して,出たのは Text Mining Session だけ.参加者 50 人ぐらい.論文は,

  • Cross-Domain Sentiment Classification via Spectral Feature Alignment
  • Highlighting Disputed Claims on the Web
  • Topic Initiator Detection on the World Wide Web

の三つ.ものすごくいい加減にメモ(少しずつ直します).
一つ目の発表は,レビューの分類で,分野適応のための新しい手法を提案したよという話.target ドメインには unsupervised data しかなく,それとは別の source ドメインで supervised data があるとき,target ドメインの分類器をどう作るかという問題を解いている.`good' や `not_buy' などの pivot の評価表現との共起で,source と target に出現するドメイン依存の評価表現間の対応を取って,ドメイン依存の素性を置換するという,Structural Correspondence Learning (SCL) と同じような spirit の手法を提案していて,SCL より良い結果が出ているのだが,なんで SCL より良くなるのか直感的には良く分からなかった.実験はしっかりしてるけど,少なくとも発表を聞いた感じでは分析があまりないように感じたので,専門分野のトップ会議ではボーダーラインぐらいになるかも.同じ target でも,使う source ドメインのデータによって精度が大きく変わるのだが,理由の分析はやはりなかった.質問では,この辺りと関係して,ドメインの近さを量的に測る方法はないのか(より直接的には,どのように source を選べばいいのか)というような話が出ていた.
二つ目の発表は,disputed claim をブラウザに表示する際のユーザビリティスタディという感じで,あまり面白くなかった.firefox の拡張 があるそうなので,興味がある人はそちらを試してみて欲しい.
三つ目の発表は,Web で話題となっていることを最初に言い出した人 (Initiator) のは誰か,というのを特定する InitRank というのを提案したよという話.Centrality, Novelity, Originality など様々な基準を数値化して,さらにグラフを作って解いていた(スコアの相乗平均を使うより良くなる).質問にもあったが,機械学習で解かないのは何故なのだろう.他には,Initiator が複数いる場合はどうすれば良いかというような質問があった(高いスコアの人が複数いるという感じになるので,後は人手で検証すればいい,と言っていた).Initiator の判断基準を網羅的に考えた辺りが面白かったかな(4年前に同じ学会に参加したときに,Spam ページを判定するのに言語モデルや圧縮率などまで持ち出していた論文 `Detecting Spam Web Pages through Content Analysis' のような,徹底感を少しだけ感じた).