注釈付きデータ駆動の研究が辿り着くところ

2月20日から東京で開かれる某国際会議で Christopher Manning が

と題した基調講演を行うそうだ.自分はこの会議には参加しないので,講演を聴講することはできないのだけど,著者のホームページで講演内容に関する原稿が公開されていたので読んでみた.一言でまとめると,この原稿で Manning は,業界的には半ば「終わった」とみなされている品詞タグ付けタスクにおいて,現状の解析器の誤りの半数程度が注釈付けに起因することを指摘し,それを踏まえて「注釈を修正すること」の是非を議論している.かつて品詞タグ付けタスクに取り組んだことがある人や,自分で新しくタスクを定義してデータの注釈付けに取り組んでいる人は,是非読んで欲しい*2.それ以外でも,注釈付きデータを自分の手法の評価の道具としかみていない研究者でない限り,読む(聴く)価値はありそうだ.
このエントリ,最初は自分の意見でも書こうかと思って色々考えていたのだけど,次第に冗長な感じになってきたので既に書いていた内容をバッサリ消してしまった.途中をすっ飛ばして結論だけ書くと,注釈付きデータを利用する際には i) 一貫性の無い注釈については積極的に作成者にフィードバックを送る*3,ii) 既存手法と比較をする際には,再実装/再実験することになったとしても,その時点の最新の版の注釈付きデータで実験を行う,iii) 同一データでの実験を前提とした精度比較だけでなく,多角的な視点で手法の比較を行う,さらに iv) ii), iii) を促進するために実装を可能な限り公開する,という辺りには気をつけていきたいと感じている.
[追記] 内容に比して大仰なタイトルのまま公開してしまった.Manning の原稿で感心したところは,「注釈付きデータの利用者」の立場で,データ自身に付いた別の注釈(句構造)を元に(個々の解析モデルに直接的に依存せず)半自動で品詞タグを修正するという方法論を試している点.これまでも,注釈付きデータに整合性が取れていない箇所が少なからずあるという指摘は,チラシの裏的に時々報告されていたが,そこで注釈付きデータを直した場合の実験結果を論文に載せたりしようとすると「自分の解析モデルの都合のいいように直しているだけだろう」というような批判を受けざるを得なかった.このような批判を回避して利用者が注釈付けを修正するには,現時点では Manning のような(データ依存の)方法論しかない.
個人的には,上にも書いたように,注釈に責任を持つ人が注釈を修正する負担を少しでも減らすために(あるいは注釈を積極的に修正する気になるように),利用者と作成者が協力して注釈を洗練させていく(育てていく)枠組みが必要だと感じている.(良い喩えではないかもしれないが)スポーツでもルールは変わっていくものだし,本当にそのタスクのために良い解析モデルを作りたいのであれば,注釈付きデータの方も(解析モデルと同様に)真のゴールに向かって改善していくべきだ.それでも「注釈付きデータは固定して使わないと意味が無い」と言う人は,(再実装・再実験の手間を省いて)数字だけで効率よく論文が出したいだけの研究者としか思えない.
[追記; 2/22] id:mamoruk さんのブログでも言及されているが,上記の会議は聴講のみなら気軽に(格安の値段で)参加可能で,特に学生は条件付きながら無料とのこと.国際会議の雰囲気を味わう絶好の機会なので,博士課程を検討している修士一年生や,これから院に入るところの学部四年生は積極的に参加されると良いと思う.昨日から既に会議は始まっているけど,keynote だけでも聴く価値はあるかと.
[追記; 2/27] 実際の講演では同時学習の話がメインで,上記の話はやや前座的な扱いだったそう.違う講演タイトルが書かれているページもあったので,急遽変更という感じだったのかな.

*1:talk 前なので,現時点では直接リンクはしない.興味がある人は Manning のページの参考文献から辿って欲しい.

*2:なお,品詞タグ付けの手法に関する否定的な結果もいくつか書かれており,参考になる.

*3:注釈付きデータの作成に責任を持つ人はそのデータを使う側の人に比べて圧倒的に少ないので,注釈の質を良くしていくには利用者の協力が必要不可欠.注釈付きデータの作成者は(問題を解く立場からの参考意見として)利用者の指摘を吟味し,(問題を規定する立場から)迅速に対応する.時間的な問題で対応できないなら,バグを周知にするだけでも良い.