方言コーパスとは何か

 私は最初から方言コーパスを作ろうと思ったわけではない。徳之島方言と標準語のテキストからKWICを作ってみたら、簡単に助詞を見つけることができた。それだけでなく、助詞に複数の異形態があることもわかった。しかし、KWICに限界があることもわかった。助詞が連接した場合、最初の助詞は文節のなかに潜り込んだ状態でKWICでは見つけられない。徳之島方言は形態素の母音が短母音で現れたり長母音になったりするが、それは文中の前後の関係によるらしい。KWICではそれは解明できない。
 文節というのはあいまいな概念で、万人が文節切りのやり方で一致するとは限らない。それよりは形態素で切ってしまうほうが、テキストのなかのすべての要素がわかっていいのではないか。そしてその形態素に情報をつければいろいろなことがさらに分かるはずだ。一つの文のなかでの形態素同士の共起関係(コロケーション)を知りたい。
 このように考えたときに頭に浮かんだのがbreakfastや茶筅、mecabのような日本語解析ソフトの出力結果だった。これは20年近く前から使っていてその有効性は十分理解しているつもりだ。あれと同じようなXML形式で作れば、それがコーパスになるはずだ。
 コーパスを作るためにはテキストを余すところなく形態素に切り分けなければならない。そんなことは日本の方言研究で行われたことはない。テキストのなかからいくつかの文をとりだして、形態素に分解するということはあったかもしれないが。
 実際にやってみると今まで何度も見てきたはずのテキストのなかに未知の助詞が埋もれていたり、なんとなくそうだろうと思っていた形態素の切り方が違っていることを発見したりした。コーパスを作るために形態素に切り分ける作業自体が記述の精密化に貢献しているのである。
 コーパスをある程度形にした段階で助詞の連接や格助詞nu,gaに前接する名詞を調べてみてこの形の方言コーパスは使いでがあることを確信した。動詞の活用を組み込んでみるとさらにいろいろなことが分かってくる。
 方言の記述は音韻、形態素、文法と進んでいくが、構文やコロケーションは未開拓の分野と言っていい。コーパスを手にすることで新たな知見が生み出されることは間違いない。

 そもそもコーパスはどうして生まれ、現在に至るまでどのような歴史をたどってきたかをざっと見てみよう。
 おそらく、コーパスを名乗った最初のものはBrown Corpusであろう。これは1961年にアメリカのブラウン大学で作られたもので、今となってはごくごく小規模の100万語の大きさしかなかった。ただ、驚くべきことはコンピューターが世に出て10数年でこれが、一大学(と言ってもアイビーリーグの大学ではある)のコンピューターで作られたことだ。おそらくはリアルタイムで問い合わせに応答するようにはなっていなかっただろうし、今から見れば非常に不便なインターフェースだったはずだが、それでも100万語のデータがあって、そこから好きな単語の用法が引き出せるというのは革新的なシステムだった。なお、100万語というのは決して多い数ではない。厚めの文庫本一冊が原稿用紙300枚として、12万字である。英語の語数が日本語の文字数にほぼ相当すると考えれば、文庫本約10冊分のテキストということになる。Brown Corpusは英語として偏りがないようにいろいろな分野のテキストを少しずつ取り上げるようにして100万語のデータを作っている。
 このあと、英語のコーパスはいくつか作られるが、そのなかでも特筆すべきはBNC(British National Corpus)だろう。これは1億語の規模で、1994年に完成した。オクスフォード大と辞書の出版社であるロングマン、チェンバース、ヘリテージのコンソーシアム(組合)が主体となったというから国家的大事業と言っていい。オクスフォード大は有名なOEDをはじめとして英語の辞書を数多く作っているから、辞書出版社が大連合を組んだということだろう。
 そして日本語では国研が雑誌「太陽」のコーパスを作ったのを皮切りに今や現代語、古文、話し言葉と全部で6種類(国研HP)のコーパスを持つに至っている。
 コーパスはコンピューターを使うことによって誕生し、成長した。コンピューターの最大の利点は同じデータを繰りかえし、いろいろなやり方で分析できることである。しかも大量のデータを処理することができる。
 逆に言うと、利用できるデータの量が少なければコーパスのメリットはない。「徳之島二千文」はその点から言えばぎりぎり合格のレベルである。他の琉球方言のコーパスを見たいが、そのためには主体的に動いてくれる賛同者を増やさなければならない。そのような賛同者に他の琉球方言のコーパスを作ってもらいたい。とりあえずはぎりぎりの規模のコーパスでも分かることがこんなにあるんだと見せることが、賛同者を増やすと信じて発信すべきなのであろう。

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です