粗末な(素性とモデルを用いた)単語分割に辞書情報を入れてみた

文節区切り - ny23の日記粗末な(素性とモデルで)単語分割 - ny23の日記の実験で,これらのタスクでは文脈の情報がほとんど要らないということは(ラベルバイグラムを考慮した)CRF との精度差が無いという事実を通じて確認していたけど,日本語の品詞タグ付けでもそうらしい.

この論文の単語区切りの素性は,去年の実験の素性に辞書情報を追加したものに近い*1ので,前のモデルの方にも辞書情報を入れて(mecab-jumandic の登録語を素性にして),某標準コーパスで精度を測ってみた(PA1 でパラメタを double で持つようにしたのと,文字種を少し変えたのとで精度は少し変化).学習時間は一番重いモデルで1-2分ぐらいなので,MacBook でも十分実験できる.

学習データ,学習器のパラメタ,素性などは[http://d.hatena.ne.jp/ny23/20100709/p1:title]を参照
文字種: 漢字,(漢)数字,平仮名,片仮名,ローマ字,その他
---------------------------------------------------------------------------------------
 feature      | d=1                  | d=2                  | d=3
      |       | c     dev     test   | c     dev     test   | c      dev     test
---------------------------------------------------------------------------------------
     p        | 1.0   79.646  79.750 |                      |
       n      | 0.05  79.921  79.834 |                      |
     p n      | 0.1   91.387  91.251 | 0.1   97.227  97.040 |
  pp p n      | 0.05  93.169  92.991 | 0.05  98.435  98.432 | 0.01    98.499  98.508
     p n nn   | 0.1   92.338  92.220 | 0.05  97.983  97.958 | 0.005   98.078  98.057
  pp p n nn   | 0.05  93.834  93.664 | 0.05  98.699  98.715 | 0.005   98.777  98.798
---------------------------------------------------------------------------------------
 + ctype      | 0.05  93.883  93.692 | 0.05  98.753  98.748 | 0.001   98.870  98.851
 + dic        | 0.1   98.042  98.042 | 0.01  99.381  99.446 | 0.001   99.453  99.471
---------------------------------------------------------------------------------------
 + ctype, dic | 0.05  98.088  98.081 | 0.005 99.441  99.482 | 0.0005  99.476  99.517
---------------------------------------------------------------------------------------

辞書素性は非常に有効(特に,区切りの両側の文字を含む語に関する素性が重要.論文にある訓練データから低頻度の語を落として使うという手法とどちらが良いかは未確認).
系列ラベリングで構造学習を用いる利点は,全体のラベルの一貫性の考慮とラベルを経由した素性の抽象化 (disjunctive feature) だと思うけど,後者はデータが十分あれば見えている単語自身が近似してくれるし,ラベルの代わりに文字種とか,単語/文字クラスタリングの結果を素性に入れれば代用もできるので,前者が必要なタスクでなければ使う必要は無いということなのだろう(それも,辞書素性や,以下の HMM 素性などで間接的に表現できる).

モデルをいたずらに複雑にして探索空間を広げるより,素性を精緻化する方が分野的に有用な知見が得られることが多いので,この論文を読んで素性工学に取り組む若い人が増えると良いな.最近の若い人は地味な素性工学より,モデルをいじる方が好きな人が多そうだし.
論文の肝は,点推定なので注釈付けコストが減らせるという点.点推定は自分の学習器/分類器と非常に相性が良いので,流行ると良いな.

*1:多項式カーネルだと考慮される skip n-grams が含まれていない代わりに,前後の3単語まで見ている.