ブログの著者の性別の推定

つい数日前終わった学会で出ていたので電車の中で一通り読んでみた.

一文でまとめると,今まで色々な論文で別々に報告されていた素性を全て使った上,1) (従来使われていた trigram 以上の長さも考慮した)可変長品詞列の素性を 2) 新しい素性選択手法で丁寧に追加して分類器を作ったら,既存手法より10%弱精度が上がりました (79.63%->88.56%),という論文.
1 は古典的な頻出パターン抽出(Apriori)と同様で,2 は既存手法のアンサンブル.実際に素性として追加された品詞列の例とか最初の方で見せてくれたらテンション上がるのだけど,最後まで無かった.手法自体はややアドホックな感じなので,結果押しで通ったのではないかな.実験はしっかりされているし.手法の効果は数字としては綺麗に出ている.
可変長品詞列について,素性選択しないとうまく動かないのは,過学習しているというのもあるだろうけど,異種の素性を混ぜてる関係で,一つの種類の素性の発火数が増え過ぎると,その素性の影響が強く出過ぎるためのような気がしなくもない(素性の重みの正規化の問題).Noisy な素性が多い場合はL1正則化を使うのが最近のトレンドのような気もするので,(全素性を入れても学習が回るなら)その辺りとの比較もあると良かったのだけど.
個人的に面白かったのは,既存手法で提案されている男女推定のための素性で,

  • F-measure: 紛らわしいが,テキストの implicitness を測る尺度. 代名詞が多ければ implicit,固有名詞が多ければ explicit という感じ.女性は implicit に,男性は explicit な文を書きやすいそうだ.計算の式がすごくて,F = 0.5 * (名詞,形容詞,前置詞,冠詞の頻度 - 代名詞,動詞,副詞,間投詞の頻度 + 100).詳しくは Weblogs, genres and individual differences を参照のこと.
  • Stylistic features: 単語・品詞の素性.有効な素性としてはスマイリーなどを想定.ここの品詞の部分を可変長に拡張したのが本研究の貢献.
  • Gender Preferential Features: 接尾辞の素性.男性が問題解決をしたがり (-able などがつく単語を使う),女性が他者の意見に対する同意,理解,支持を表現することが多い (-ly, -ful などがつく単語を使う) 傾向を利用.この辺りは,以前読んだ話を聞かない男、地図が読めない女でも男女の話の食い違いの原因を分析する節で書いてあったような気がする.
  • Factor Analysis: トピック(Factor: conversation, home, family, food / clothes, romance など)と男女の相関を考慮し,トピックと相関のある単語の出現を素性とする.直接的な評価はないが,3つ新しい factor を追加 (Positive, Negative, Emotion).KDDI の twitter のプロフィール分析はこの拡張とみなせるかな.

多様な分野にまたがって報告された手がかりを整理して統合して使ったことに一番の意義があるのかも.手法の巧拙や結果の意義から離れて,単純に,サーベイとして読んでも良い論文だと思う(上の説明でほとんど終わってるけど).なお,素性選択手法も一通りリストアップされている.