あのKWICをどうやって作ったかを全くのブラックボックスにしておくのはまずいので原材料のテキストファイルとプログラムをまとめてダウンロードできるようにした。
ダウンロードはここから
ダウンロードしたファイルを解凍すると
kz.txt
make_kwic0.xlsm
kwicseikei.xlsm
make_reverse_key0.xlsm
REVERSE_KEY.pdf
xlsmという見慣れない拡張子は「VBAなどのマクロ付きエクセルデータ」を意味する。
REVERSE_KEY.pdfはキー文節の逆引き順ソートによるKWICである。これは助詞など文節の最後に出現することが分かっているものを見つけるのに便利である。
kz.txtはKWICをつくるもとになるファイルである。発話の識別番号をつけた方言文とそれに対応する標準語文が交互に出てくる。
make_kwic0.xlsmはkz.txtの発話識別番号、キー文節、その前後の文脈を方言文、それに対応する標準語文とも同一の行の対応するセルに書き込む。プログラムの役目はすべてのデータをセルに書きまでのところで、そのあとは手動でキー文節を第一キーとして全体をソートする。
kwicseikei.xlsmはソート済みのセル上のデータからKWICのテキストファイルを出力する。今回KWICを作るために用いた方法はソートの手続きまでプログラムで行うのではなく、エクセルのソート機能を活用するというものである。ソートを含めた全体をプログラムで自動化するやり方もあるが、エクセルにソートを任せることによってプログラムが簡単になり理解しやすいものになった。
make_reverse_key0.xlsmはソートキーの文字列を逆転させて新たなセルに書き込むというものである。単機能のプログラムなので、短くできる。
エクセルのプログラムは一見して普通のエクセルにしか見えないが、画面上部の「開発」タブをクリックするとその下、一番左にvisual basicと書かれた領域が出てくるのでそれをクリックすると画面が変わる。こうして現れたものがここで言う「プログラム」である。これがVBAのプログラムである。
「プログラミング講座」ではソートする前のKWICデータを作るmake_kwic0.xlsmとソート後のデータからKWICを作るkwicseikei.xlsmのVBAプログラムを作れるようになることを目標とする。この二つのプログラムに文字列処理の技術のほとんどが含まれている。あとは応用で大抵のことはできるはずだ。
kz.txtを原資料と対照しながら一度よく見ていただきたいのだが、方言文と標準語文の対応、文節同士の対応をとるために非常に苦労している。そのために捨ててしまった情報もある。また、分かち書きが常に文節で行われているのではないことも理解していただけると思う。時間をかけないでKWICの材料を作るためにかなり大胆な処理をしているし、原文にあたって修正をすることもあまりできていない。
ただ、私は談話資料のデータを加工する過程でもとのデータに対する理解を新たにすることができたと思っている。一度KWICなりコーパスなりができると、原資料に戻って資料としての価値を見定めようとする人はあまりいないだろう。実際は、それこそがまず行うべきことだと思う。
それともう一つだけ付け加えると、群馬県の方言を知るための資料としては方言談話資料は量が不足していることもお分かりと思う。文節の数が5000以下である。もっと厳密に文節切りをすれば多少は増えるかもしれないが、それでも6000には届かないだろう。文節のなかに自立語が一つしかないので、自立語の数もその程度だと分かる。自立語の異なり数はやっと1000を超えるぐらいではないか。このあたりの統計的な研究が全く不足している。方言談話資料の地点ごとにKWICを作って語彙統計をとる人が現れることを切望する。