人手で頑張らない注釈付きデータの作成は可能か

忘れないうちにメモ.中国の学会で感心した発表の一つに以下のような研究があった.

ポスター発表を聴講しただけなので,誤解しているところもあるかも知れないが,話としては単純で,曖昧性解消の注釈付けをする際に,作業者自身の履歴から曖昧性解消モデルを学習して注釈付け候補をリランキングして作業者に提示する,というもの.実際の作業を通して効果を計測しているのも良く,約1.5倍注釈付けが高速化される上,inter-rator agreement も上がったとのこと.
この研究自体も面白いのだけど,人を分類器とみなして,機械学習の文脈で対応する手法を考えるとさらに興味深い.アプローチとしては,

などと相通じるものがある.賢い処理を網羅的にやるのは大変なので,うまく手を抜くという話で,前者は二つの独立したモデルを想定していて(軽いモデルの結果の確からしい候補から順に重いモデルで確認する),後者は賢く重い処理を近似する軽いモデルを作るという話.この手の話はどこにでもあって,Shift-Reduce 型の係り受け解析や,形式文法の近似も魂の部分では同じと言える(例えば,Shift-Reduce 型の係り受け解析は,距離のみに基づくルールベースのモデルと分類器の結合ともみなせる).
機械学習を使っていると,データは誰かが作ってくれるものと軽視する人もいるかもしれないが,データ駆動の研究分野では,よい注釈付きデータを作ることこそが研究の本質で,機械学習の役割は,人間が言語化・マニュアル化できない制約・傾向・不文律を明確化する手段に過ぎない.極論かもしれないが,昨今の論文で焦点となることが多い機械学習とデータを仲介する解析モデル・確率モデル(離散的なルール,あるいは独立性の仮定)ですら,注釈付きデータの質やサイズが変われば影響を受ける(データサイズが変わればより独立性の仮定の緩いモデルが使える).そういう意味では,データ作成にお金を費やせる大きな研究室(研究の流れを主導する力のある研究室)は,データ作成にも色々な方法論を試して欲しいと思う.
少し話は変わるが,昔,推薦度を当てるタスクを研究していた学生の卒論発表をみていて,「人間より機械がうまくできないのは不思議」と分野外の先生がコメントされていたのが記憶に残っている.その頃は,タスクには唯一の正解があるという前提で人間には容易に解ける基礎的なタスクばかりをみていたので,機械が人間よりうまく出来ないのは当然と感じたが,データによっては,inter-rator agreement が高くならないタスクもある(例えば,語彙知識に関わる注釈付けなど; cf. IBM Watson).作業者それぞれが弱学習器だと思えば,boosting/bagging のような話になっていて,個々の作業者より良いモデルを作ることは実は容易ではなかろうか.そう考えると,無理に一つの annotation をつけるのではなく,独立した複数の annotation を残してもいいように思う(それぞれに一貫していればの話.無理に整合性を取った場合,一枚岩のモデルで近似するのには無理があるような直感がある; ここを頭を絞って時間をかけてひとつに絞るより,曖昧なまま残して学習器の方で複数のデータに最適化させるほうが良かったりして).評価尺度も(学習の目的関数を参考に)調整(annotation が複数あれば,全ての注釈者が一致するという意味で,合って当然の注釈を間違えた時のコストを大きくできたりするかも)あと,エキスパートが一人いて,初心者が複数いるようなヘテロな注釈付け環境ではどう注釈付けを最適化すればいいだろうか.学生100人雇うのと,業者に頼むのとどちらか費用対効果を最大化できるか(id:mamoruk さんから Snow et al. (EMNLP 2008)で関連した研究の報告があるとのコメント; ありがとうございます).データ作成絡みの論文というと,トップ会議では active learning ぐらいしか見ないが,答えをひとつに絞るというところを緩めると,色々と論文が書けそうな気がする(実際には人間が絡むと大変だと思うけど,自分でやるなら注釈付けにかかった時間も含めて残せるだけログは残しておきたい).自分が知らないだけかも知れないが,データ作成の方法論に関しては,もっとトップ会議で議論されても良いのではないかな.
内容と関係ないところで長くなったけど,そういう将来を感じさせる,記念碑的な一本だった(とまとめておく).最後に,人間の学習と機械学習を結びつける一本を.読んでないけど,読まなくても何となくわくわくする感じがするのは素敵だ.国際学会の論文を査読した際に引用されていた.

[追記]ブログだからと言って,適当に書いていると,日本語のバグがすごいな.反省.
[追記]少し前になるが,昨年の NIPS に,上記の議論と関連した学習手法が出ていた.

このように学習手法の方が成熟してくれば,訓練データを作り方や評価の方法もそれに応じて変わっていくのではないかな,と思ったりもする.