10日の国研のシンポジウム(ズーム)は「言語資源学の創成」というテーマだった。何だかすごく難しそうだが、簡単に言ってしまえば電子的に加工された言語データを使っていろいろやりましょうという話なのだと思う。
国研の場合はいまやコーパスを使った研究に研究所の命運をかけている感があるので、利用するべき電子データの最大のターゲットは各種のコーパスということになる。
方言データに関しては大西拓一郎さんが「空間接続プロジェクト」についてのポスター発表をした。このプロジェクトでは国内の言語地図を電子化してデータベースを作成し、GIS(地理情報システム)で利用できるようなデータも作成して公開することや、国研所蔵の外国言語地図の解題と項目リストの作成、越谷吾山の『物類称呼』中の方言語形に地点情報を付加したデータの作成などを行う。
実は私もこのプロジェクトに参加しているので大西さんの発表の大部分は既知のことだったが、近代的な方言研究以前の古い文献に関係する試みは新鮮な驚きだった。
方言研究の分野では「走り」となる「加工された電子データ」の大規模なものは今を去ること40年近く前に国研に在籍していたときに作った。「方言文法全国地図」(GAJ)の調査地点ごとの回答をデータベースにすることを目的として、全データを報告された表記のままで作成した。発音記号などは記号や数字の組み合わせで表現した。ただし、それを発音記号の形でディスプレーに表示したり、印刷することは当時はできていない。
データベース化は1985年当時のPCのソフト・ハードの能力では不可能だったが、データの作成はなんとかできた。この電子化されたデータをもとに1989年発行のGAJ第1集の付録として語形一覧を出すことができた。各地点での項目ごとの回答が報告された表記で印刷されている。GAJは全6集が発行されたが、そこに収録されたすべての地図に対して語形一覧を付けることができた。私は第1集の発行後に国研を離れたが、語形一覧の作成は最後まで担当した。
印刷物としての語形一覧だけでなく、GAJの地図を作る際に電子化されたデータは最大限に利用された。まず、公刊された資料一覧のゲラにあたるものが、地図の作製者(変化一研の研究員と外部の協力者)に提供された。
GAJは文法項目を扱っているために、項目同士の関係が強い。LAJで項目の独立性が強かったのとは違っている。たとえば、「読まない」は「食べない」など他の動詞の否定形と関連しているし、「読めば」「読もう」など動詞「読む」のいろいろな活用形とも関連している。地図を描くうえで他の項目を参照したいことがかならず生じるが、この資料一覧を持っていればそれが簡単にできる。特に外部の協力者は国研に足を運ばなくても他項目の参照ができることになってメリットが大きかった。
第4集からは、大西さんの開発した方法でイラストレーターというソフトを使って地図を描画することができるようになった。電子化されたデータを使えば、今までに比べてはるかに少ない労力で地図をつくることができる。
ここまでで、データ作成の労力が完全に報われたように思われるがまだまだその先があった。
2000年に大西さんによって全データがウェブ上で公開され、2014年には語形データがUTF-8によるUnicodeの発音記号で表示されるようになった。ローマ字と記号の組み合わせをUnicodeの文字に変換したのである。
GAJではすべての項目の調査結果が地図化されて出版されているわけではない。GAJの言語地図は資料図としての性格が与えられているが、項目によっては他の項目を見れば大体見当がつくようなものがある。そのような項目も資料一覧で取り上げているし、原資料は電子化された形で公開されているので、わざわざ資料図である言語地図を作るまでもないということだったようだ。
LAJ(『日本言語地図』)についての研究は、どうしても大本のデータである紙のカードに接近できる国研の関係者しかしないようなきらいがあった。しかし、GAJは今やそうではない。公開されたデータからGIS(地理情報システム)を使って地図を描くことができる。もちろんイラストレーターを使ってもいいが、LAJが作られた時代のやり方に比べてはるかに少ない手間でできるのだ。手間がかからない分いろいろな観点で地図を描いてそのなかから自分の目的に最適な地図を選ぶということもできる。
また、地図を描く以外にも数理的な研究をしてもいい。電子的なデータはそのような研究にも親和性が高い。大事なことはウェブ上のデータを利用できる人は誰でもデータを利用した研究ができるということだ。
まさに研究の民主化ともいうべきことだ。誰でもGAJのデータを使って独創的な研究ができる。それなのにそれをやろうとする人をあまり見ない。方言の世界でまだまだ新しい研究をする余地があるのだから若い人はチャレンジしてほしいと思う。これこそ「言語資源学」の実践である。