コーパスを作るためにはまずKWICを作らなければならない。徳之島方言の研究ではKWICからコーパスを作ったが、最初からそれを狙ったわけではない。予期しない形で『日本語二千文』の徳之島方言版ができて、それも最初から電子的な形態であったので、とりあえずKWICを作ろうと考えた。(『徳之島二千文』ができたいきさつについては稿をあらためて記すことにする。)
『徳之島二千文』から作ったKWICの実物は『徳之島方言二千文辞典改訂版』にあるが、その一部を例として下に示す。
1962 kju:mu:rusI: ‘uwarada:tINba juta:haNda:
今日みんなし 終わらなくても いいんだよ
1818 sIgju:tunuhaNbuNja ‘uware:tI
仕事の半分を 終えました
753 heiwacjICju:ku:sIja’ikusja:ja ‘uwarumE:
平和だってしばらくは戦は 終わるまい
621 sIcI:zIzju:gohuNmE:kumijurE:ja ‘uwa:tI
7時15分前寄合は 終わった
1674 jumi ‘u:watIka wassjIraNgoNmudu:sjIjo:
読み 終わったら 忘れずに戻してくれ
113 kuNsIgju:tunu ‘uwa:tIka Cju:ku:sIjasImaNba
この仕事が 終わったら しばらく休まねば
KWICがどんなものであるかを説明するために例としてABCDEという要素からなる文を考える。そうするとこの文からは
A BCDE
A B CDE
AB C DE
ABC D E
ABCD E
のような文字列を作ることができる。すべての文について同様の操作をし、真ん中の要素をキーにしてソートすると、真ん中の要素で同じものが複数あれば、一箇所に集まる。キーとなった要素には前後の文脈がついているので、その要素の意味が推測しやすい。
文のなかに平均して6個の要素があった場合、ソートすべき文字列の数はテキストに含まれる文の数の6倍になる。もとのテキストに比べてKWICの文字量はずっと多くなる。したがって、もとのテキストがそれなりの分量であれば、印刷して本の形にするよりは電子的な形態で発表するのが適当である。
私の工夫は、徳之島方言だけでなく、標準語訳もつけてKWICにしたことだ。
また、「要素」は普通、単語や形態素なのだが、徳之島方言の場合は方言形の意味もよく分かっていない状態なので、単語に分解することはできない。そこで、「文節」を単位としてKWICを作ることにした。「文節」はこの場合、「標準語訳も方言も切り方が保証されている最短の要素」ぐらいの意味である。全くの仮定だが、方言で「驚き桃の木山椒の木」というのがもしあれば、その訳は「びっくらこいた」となるかもしれない。この場合、「桃の木」に直接対応する要素は訳にないので全体を「文節」として扱うしかない。
キーとなる要素を逆引き(「きつね」を「ねつき」のように最後から最初にさかのぼるようにして見る)でソートすると、文節の最後に置かれた助詞が一つところに集まる。標準語訳も同様に順引きと逆引きでKWICを作るといろいろなことが分かってくる。実物を見れば、それがどういうことか分かるはずだ。
KWICは方言文字化テキストのなかの名詞の延べ語数や異なりの数など基本的な統計量を知るための有力な武器であるのに今まで徳之島方言以外でKWICを作ったという話を聞いたことがない。テキストを科学的に研究するための出発点と考えれば不思議な話である。
このブログではKWICを作るためのプログラミング講座も予定しているので、方言研究者の人たちのなかから私に続く人が出てくることを期待したい。