日本語学習者作文コーパスが公開

今日JASLAからのメーリングリストで,

日本語学習者のタグ付き作文コーパスが公開されたという情報を得たので早速使ってみました。「自然言語処理の技術を利用したタグ付き学習者作文コーパス」ということで,いつ使えるようになるかなーと,以前からわくわくてかてかしていました。サイトはこちら
このコーパスの特徴は,自動で形態素解析をして振ったタグを人手にて修正してあり,作文の誤用添削もついているという点。
またもちろん学習者情報として作文レベル判定結果もついています。名前と所属を打ち込むだけで簡単に使えるようです。ためしに自分の研究に引っ掛けて検索窓からとりあえず「ために」と検索してみます。すると,おお,母語×習熟度のマトリックスにヒット件数が出ました。
tameni
ちなみに「誤用のみ」を選択すると該当表現の誤用件数が母語×習熟度別に出てきます。なんかこれだけで何かが見えたような気がしてしまいそうです。「品詞」欄を選択して検索窓を空白にして検索すると、その品詞の誤用がそのマトリックスに出てきます。試しに助詞の誤用を検索すると,こんな結果に!
助詞
んー,中国語話者は中級で一度誤用が増えて上級になると徐々に減っていくのに対し,韓国語話者は習熟度が上がるにつれて誤用が増えていく!韓国語話者と中国語話者には助詞の使用に発達段階の異なりが見えるのか…?
・・・よくある話なんですが,これ,そもそもそれぞれのマスに入る元の参与者の数,産出語数にかなり違いがあるんですね(調べてみると,例えば初級韓国語話者は11人なのに対し中級韓国語話者は50人,中級中国語話者は99人)。
ちょっとミスリーディングなので下にカッコ書きとかで100語あたりの割合とかも出してくれると親切かなとも思いました。また,私の興味で日本語の複合動詞を抽出したいと思ったんですが,どうやらWeb上の検索システムは,(おそらく)正規表現にも,複数語の品詞の指定(例えば「形容詞+名詞」や,複合動詞の場合,「動詞+動詞」など)にも対応していないようで,複合動詞の抽出はちょっと骨が折れそうです。
また,正規表現が使えないこととも関連するんですが,漢字とひらがなの表記のゆれや,活用も含めた表現の抽出ができないみたいです(形態素単位検索だと同じ単語なら漢字かひらがなかどっちかで統一されているのかもしれませんが,それでもどの単語が漢字で表記されているのか,ひらがなで表記されているのかわかりません)。
表記のゆれに関しては「文字列」と「形態素」だけでなく音韻情報と形態素情報の組み合わせなどでも検索出来るととても勝手がいいのですが,自動形態素解析の音韻情報は結構エラーが多くて目で見るのも大変なので,これからそういう情報が付与されるといいなぁと期待しつつ。
で,品詞を指定するには形態素単位で検索しなければならなく,形態素単位は辞書系で検索しなければならないので,活用語尾までを指定して品詞を指定,という抽出もできないようです。まぁそんなのは自分でgrepしろと言われそうなのでテキストファイルをDLして中のtxtファイルを覗いてみたのですが,そうするとこっちのファイルには誤用情報が含まれていません。
よく読むとどうやら添削情報はWeb版でしか見られないっぽいです。ないものねだりかもしれませんが,Web検索が正規表現や複数語の指定に(例えば日本語書き言葉コーパスのように前後の文字列を指定できるように)対応するか,テキストファイルにエラータグがついてくると使い勝手がいいなぁと思いました。
広告

三段論法を通すといろいろ見えてくる

読む可能性のある人を想定すると釈迦に説法くさいけれど,三段論法は大前提と小前提から結論を導き出すこういう推論で:

大前提:全ての人間は死すべきものである。
小前提:ソクラテスは人間である。
結論: ゆえにソクラテスは死すべきものである。

Long (1985)なんかでは,反証可能性を担保するために以下のような推論を用い,仮説検証の手順を示している(仮言三段論法)。

大前提:言語・会話的調整がインプットの理解を促進する。
小前提:インプットの理解が習得を促進する。
結論: 言語的・会話的調整が習得を促進する。

ただこういうのは明示しなくても研究の仮説検証のプロセスにおいて暗黙的に用いられてきているはず。

たとえばL1のAnomaly detectionの研究,Jiang (2004, 2007)をはじめとするself-paced reading taskの研究で暗黙として受け入れられている推論を試しにこの方法で記述してみると,たぶんこうなる。

大前提:(暗示的)文法知識を持っていると文法的不自然さに注意が向く。
小前提:文法的不自然さへの注意は反応時間を遅らせる。
結論: ゆえに(暗示的)文法知識を持っていると反応時間が遅れる。

ここでの大前提と小前提は分野の人たちには多く受け入れられているので,実験を行って反応時間の遅れが出たときに(あるいは出なかったときに),それは暗示的知識を持っているから(あるいは持っていないから)と結論付けることができる。なので例えば文法的不自然さに注意が向くかどうかが明示的知識の影響だと信じて疑わない人にはself-paced reading taskでの実験は受け入れられない実験デザインだろう(単なる例であってわたしがそうという意味ではない)。

で,私の興味のあるタスク研究でRobinsonが推し進めている仮説を上の推論に従って記述すると,たぶんこうなる。

大前提:タスクが複雑になると形式に注意が向く。
小前提:形式に注意が向くと産出の正確さと複雑さが向上する。
結論: ゆえにタスクが複雑になると産出の正確さと複雑さが向上する。

この「結論」部分を示す実験(即ちタスクの複雑さが産出の正確さと複雑さを促進させることを示す研究)が盛んに行われているが,じつは大前提に関して「タスクが複雑になると正確さと複雑さが向上するから形式に注意が向いている」と主張しはじめると循環論法になる。

また「形式に注意が向く」以外にも正確さを向上させる要因が多く提案されていることからも,小前提の脆弱性を考慮する必要がある。