国研が出した『方言談話資料』の一部をKWIC化する作業を始めている。これはこのサイトの目的の一つだった「KWIC作成で学ぶプログラミング講座」の材料となるものだが、プログラミング以前にデータを整備する作業に手間取っている。データがきれいになっていないとプログラムが正しくても、プログラムを実行したときにエラーが出ることになる。
徳之島のコーパスのときもそうだったが、テキストを何らかの形にするためにプログラムにかけるときは、プログラムにのるようにデータをきれいにするのに時間をとられるものらしい。
『方言談話資料』はもともと手書きだったが、公刊されてからだいぶ経ってからデータ化されたらしい。どうしてそんなことを言うかというと、『方言談話資料』全巻に私の手が加わっているからであり、2000年ぐらいに作られたデジタルデータがあるからである。
私が研究員として国研に着任したのは1976年だったが、ちょうどそのときあるいはその前年から『方言談話資料』のプロジェクトが始まった。私は送られてきたすべてのカセットテープをオープンリールにコピーして文字化が正しく行われているかチェックし、音声のクレジット(研究補助員の声を録音)をつけてテープを編集してマスターテープを作るということをしていた。冊子は各地方言の解説・本文・注が手書きで地方研究員が書いたものをそのまま使ったが、必要に応じて研究補助員の白沢宏枝さんが清書をした。
ほとんどの地点は地方研究員が収録・文字化を担当したが、国研も一地点担当することにして、私が着任した年に鳥取県に変化一研(地方言語研究室)全員が出張した。鳥取で「横須賀ストーリー」を聞いて衝撃を受けたと記憶しているので、1976年で間違いない。
このような経緯があるので、私が『方言談話資料』を聞き込んだ人間のベストスリーに入るのは間違いない。「一番多く聞き込んだ」と言わないのは、巻号によっては公刊されて40年以上経っているので世の中にどんな人がいるかわからないからである。聞いていただけで、それを材料に論文を書いたわけではないので、あんまり自慢にはならない。トータルでずいぶん長い時間聞いていたのだが、そのときにずっと考えていたのは「これを材料にして何か研究ができないか」だった。
研究室の室長だった佐藤亮一さんが言っていたのは「談話の文字化だけで動詞『来る』の活用形を網羅することはできない」だったが、それどころか非常に基本的な動詞が全く出てこないことだってある。それは計量的な研究が進んでいる書き言葉のテキストを見ていれば分かることである。したがって、『方言談話資料』で語彙や文法の記述的な研究をするのは無謀な試みである。
では何ができるか、40年以上前の私にはいい考えが思い浮かばなかった。当時のコンピューターは大型電子計算機と呼ばれていて、空調の効いた大きな部屋に洋服箪笥が3本並んだような外観で鎮座ましましていた。大げさな見かけの割には日本語処理環境は貧弱で、『方言談話資料』のテキストをあらためて入力しなければならないことを考え合わせればコンピューター処理は夢のまた夢であった。
それから10年ぐらいの間に日本語処理環境は長足の進歩を遂げ、コンピューターもPCが当たり前になった。そのときには『方言談話資料』は研究室の研究テーマから外れていたので、私が在職中に何かの処理をする機会はなくなっていた。
さらに30年経った今、日本語処理はさらに楽になった。コンピューターも段違いに強力である。足りないのは方言研究の業界内のプログラミングの普及である。
私が在職していたころの国研はデジタルデータがあったらまずKWICを作るのが当たり前だった。せっかくデジタル化した『方言談話資料』があるのだからKWICを作ってみよう。KWICを作るのに使うプログラムはそんなに難しいものではない。KWICはオールドテクノロジーで、それを作るプログラムはローテクである。でも、KWICは作っておいて損はない。テキストの性質を知るのに一番手っ取り早い。
とりあえず、今回はKWICを作って、そこから何が分かるかをお見せしたい。