コーパスの作り方の概略を記すことにする。必要だったプログラムは数十本だが、個々についての説明は別稿にゆずる。ここでは「KWICの作り方」にならって考え方だけを記す。
1. まず、テキストを形態素で切って区切り記号を挿入する。すでに文節切りができているので、さらに切るということになる。
副詞や感動詞などの不変化詞は切れ目がわかりやすい。助詞はKWICからどんなものがあるかが分かっている。助動詞も口語文法の「様態の助動詞」など助動詞とされているものと相同のものはほとんど不変化詞なので、これも切れ目が分かりやすい。活用する助動詞は、受け身・可能・使役・丁寧・否定・過去を意味するものぐらいである。
動詞は動詞にこれらの活用する助動詞がついた形でひとまとまりとする。これは動詞と助動詞の切れ目が決定しにくく、無理に切ることができないためである。
大事なことはこれで区切りが完成したのではないということである。切り方は作業の過程で変更されることがある。
2.形態素の直後に品詞を表す漢字1字をつける。たとえば、
kara:zI@kacI@tI:da@nu@tI:tun@da: は
kara:zI名kacI助tI:da名nu助tI:tun動da:助 のようになる。
これをプログラムにかけて、データをXML形式に変える。
3.2.のデータからプログラムで品詞別の形態素リストを作る。
この形態素リストをアルファベット順でソートし、異なり語形順に番号を振ってゆく。
4.異形態や動詞の活用形などのように同じ形態素なのに異なる番号になっている場合は目視でそれを見つけ、番号を統一する。
5.同じ番号のものが離れて存在するようになっているので、番号でソートして同じ番号が一箇所に集まるようにする。
6.複数の番号を一つにまとめたために番号が連続しなくなった。そこで番号を連続したものに変える。
7.動詞の場合は動詞のリストが既にあるのでその番号をそのまま使う
8.付加した番号をコーパスに反映する。番号はid番号になる。
3.から8.のサイクルを繰り返しながら問題点を見つけて修正していく。
切り方が違っていた場合は、マニュアルで修正するが、そのあとで必ず書式チェックプログラムを通して書式が間違っていないかをチェックする。これは非常に重要である。
部分的にピンポイントで修正する場合は「手術」と呼ぶプログラムを使う。マニュアルでの修正を最小限にとどめる。
記憶によれば、一番エラーが出るのは3.のマニュアルによる番号付加だった。
以上、10本以上のプログラムが必要になることが分かったと思う。実際は少しずつ変更して品詞別に違うプログラムにしたりしたので、数十本になる。ただし、それぞれのプログラムは決して長大なものではない。せいぜいが100行以下のものである。だから、それほど高度なプログラミング能力を必要としていない。ほとんどのプログラムで共通して使うのはソートのサブルーチンである。
動詞は「活用形」と「どんな助動詞が連接しているか」の情報を付加することにした。そうすることによって動詞と助動詞を分けてそれぞれに情報を付加することを避けた。徳之島方言では動詞と助動詞が融合するケースが多く、無理に分けるためにはdeep structureのようなものを設定しなければならなくなるからである。たとえばsjaNには「した」と「しない」の両方の意味がある。sjaNのどこまでが「する」でどこから「過去」になるか誰も答えられないであろう。
助動詞と活用形の情報を付加した場合、それではこの二つの情報と動詞のidから実現形ができることの正しさをどう確かめるかが次の問題になる。もちろん、人間が目視で確かめるのが一番簡単な方法だが、それは時間と手間を要する。これもプログラム(プログラムA)を通すことで自動化ができる。
コーパスに助動詞接続と活用形情報を付加する手間を軽減することも考えたい。そこで考えたのは、動詞のidから可能な活用形をすべて生成し、コーパス中の活用形と同じ語形があったらその助動詞接続と活用形情報を出力するというプログラム(プログラムB)である。
このプログラムが単一の候補だけを提示する場合は、それを直接コーパスに入力すればよい。多くの場合は複数の候補を提示するので、コンテクストを考慮に入れて人間がそのなかの一つを選び入力することになる。
このようにすることの効用は別稿にゆずりたいが、はっきりしているのはこれが省力化につながり、今までの活用の記述の検証もできるということだ。
プログラムAをプログラムBに改造するのは簡単なことではなかった。しかし、徳之島方言用に作られた動詞活用プログラムを他の琉球方言向けに改造するのは、全く新たに作るのに比べればはるかに易しいはずである。
以上がコーパスを作るための手順である。コンピューターを使わなければ不可能だった。すべてマニュアルでできないことはないが、膨大な時間と手間がかかり、ミスも多発するものと思われる。
この方法は徳之島方言のみならず、琉球方言すべてで応用可能なものである。琉球方言は音韻、形態、までは記述が進んだが、コロケーションなどについては十分解明が進んだとは言えない。また、首里方言など文字化資料が大量にある方言ではコーパスを使うことで本土方言の話し言葉コーパスで行われているような大規模データによる研究が可能になる。