粗末な(素性とモデルを用いた)単語分割に辞書情報を入れてみた
文節区切り - ny23の日記や粗末な(素性とモデルで)単語分割 - ny23の日記の実験で,これらのタスクでは文脈の情報がほとんど要らないということは(ラベルバイグラムを考慮した)CRF との精度差が無いという事実を通じて確認していたけど,日本語の品詞タグ付けでもそうらしい.
- 日本語: Pointwise Prediction for Robust, Adaptable Japanese Morphological Analysis (ACL-HLT: 2011, short)
- 英語(参考): Structure Compilation: Trading Structure for Features (ICML 2007; 前も引用した記憶が)
この論文の単語区切りの素性は,去年の実験の素性に辞書情報を追加したものに近い*1ので,前のモデルの方にも辞書情報を入れて(mecab-jumandic の登録語を素性にして),某標準コーパスで精度を測ってみた(PA1 でパラメタを double で持つようにしたのと,文字種を少し変えたのとで精度は少し変化).学習時間は一番重いモデルで1-2分ぐらいなので,MacBook でも十分実験できる.
学習データ,学習器のパラメタ,素性などは[http://d.hatena.ne.jp/ny23/20100709/p1:title]を参照 文字種: 漢字,(漢)数字,平仮名,片仮名,ローマ字,その他 --------------------------------------------------------------------------------------- feature | d=1 | d=2 | d=3 | | c dev test | c dev test | c dev test --------------------------------------------------------------------------------------- p | 1.0 79.646 79.750 | | n | 0.05 79.921 79.834 | | p n | 0.1 91.387 91.251 | 0.1 97.227 97.040 | pp p n | 0.05 93.169 92.991 | 0.05 98.435 98.432 | 0.01 98.499 98.508 p n nn | 0.1 92.338 92.220 | 0.05 97.983 97.958 | 0.005 98.078 98.057 pp p n nn | 0.05 93.834 93.664 | 0.05 98.699 98.715 | 0.005 98.777 98.798 --------------------------------------------------------------------------------------- + ctype | 0.05 93.883 93.692 | 0.05 98.753 98.748 | 0.001 98.870 98.851 + dic | 0.1 98.042 98.042 | 0.01 99.381 99.446 | 0.001 99.453 99.471 --------------------------------------------------------------------------------------- + ctype, dic | 0.05 98.088 98.081 | 0.005 99.441 99.482 | 0.0005 99.476 99.517 ---------------------------------------------------------------------------------------
辞書素性は非常に有効(特に,区切りの両側の文字を含む語に関する素性が重要.論文にある訓練データから低頻度の語を落として使うという手法とどちらが良いかは未確認).
系列ラベリングで構造学習を用いる利点は,全体のラベルの一貫性の考慮とラベルを経由した素性の抽象化 (disjunctive feature) だと思うけど,後者はデータが十分あれば見えている単語自身が近似してくれるし,ラベルの代わりに文字種とか,単語/文字クラスタリングの結果を素性に入れれば代用もできるので,前者が必要なタスクでなければ使う必要は無いということなのだろう(それも,辞書素性や,以下の HMM 素性などで間接的に表現できる).
モデルをいたずらに複雑にして探索空間を広げるより,素性を精緻化する方が分野的に有用な知見が得られることが多いので,この論文を読んで素性工学に取り組む若い人が増えると良いな.最近の若い人は地味な素性工学より,モデルをいじる方が好きな人が多そうだし.
論文の肝は,点推定なので注釈付けコストが減らせるという点.点推定は自分の学習器/分類器と非常に相性が良いので,流行ると良いな.