シン東京語アクセント資料２ – 方言コーパスと言語地理学またその周辺

この稿に先立つ「１」では『シン東京語アクセント資料』（以下『シン東京語』と略）の必要性を主張した。ところが、実際には今のところどこからも『シン東京語』を作ろうという声は上がっていない。その必要性を一番強く感じている私が主導して作るべきなのだろうが、無位無冠の身では大きなプロジェクトを運営することはできない。
ここではプロジェクトが実行可能であること、またそのためにはどういう技術を組み合わせて使うべきかについて説明したいのだが、その前に『東京語』プロジェクトがいかに実行されたか、そこから何を教訓とすべきかについて述べたい。

『東京語アクセント資料』（以下『東京語』と略）の調査・データのまとめ・刊行は「１」で述べたように難航した。それだけでなく、多額の研究費を費やした。今同規模のプロジェクトを行うとしたら、それなりの研究者のチームと大がかりな科学研究費、3～5年の研究期間が必要だ。私は前回の反省を踏まえてどうやったら全体を効率化できるかずっと考えてきた。私にとって『東京語』の経験は苦痛に満ちたものだったし、あれを繰り返してはならないと痛感しているのだ。
『東京語』プロジェクトは1981年か82年に始まった。「言語の標準化」という大型科研費の研究があって、その一環という位置づけだった。資料としての『東京語』を作るというアイディアは「言語の標準化」の総元締めである柴田武先生からでたものだった。『東京語』プロジェクトのトップは信州大学の馬瀬良雄先生と国語研究所の佐藤亮一さんだった。理論的な支えは馬瀬、プロジェクトの運営の実務は佐藤という分業になっていた。こうなったのは成り行きのようなものだが、三人の間でイメージの統一があったかどうか疑わしいし、それがあとあとマイナスに働いたように思う。
最初に調査の対象となる語を選定するのだが、馬瀬、佐藤、それに私が名古屋市のホテルに泊まり込みで新明解国語辞典の全見出し語のうち3人とも知っている言葉を残すという作業をした。1泊だったのか2泊だったのか記憶にないが、とてもこれだけで終わる量ではなく、あとで馬瀬、佐藤が蔵王で合宿をしたと聞いた。
こうしてできた候補語に当時大学院生だった熊谷康雄さんと日本語教育の浅野さんがアクセントをつけ、違いのあった語を最終的な調査の対象として残した。二人は若年層と高年層の代表という位置づけだった。
調査対象語は23回に分けて調査することになり、23冊の調査票が作られた。最終的に調査票は26冊となったが、それは23番までの調査をした結果補充が必要だったり、調査文が不適切だったために新しい調査文を立てたりしたためのものである。調査語を組み込んだ調査文を読み上げる形式の調査で、調査票は調査文を羅列したものになる。
年齢・性別などを考慮して20名以上の話者が選定された。調査の基本は調査員が対面で話者の読み上げをカセットテープに録音し、そのテープから聞き取り担当が記入票にアクセントを記録するというものだった。話者にテープレコーダーと調査票とテープを預け、あとでそのテープを回収するというやりかただったが、内省でアクセントの位置を書き取る能力のある話者には調査票と記入票だけ渡してあとで記入票を回収するというやり方に変更したケースもある。
テープが戻ってきたら、聞き取りチームの仕事になる。記入票には調査語の番号と調査語、それに調査語のカナ表記があらかじめ書かれている。聞き取り担当は調査語のカナ表記にアクセントの滝を書き加える。もし、平板で滝がなければ線を上につける。次に「核化」担当（そんな名前だったような）が滝の位置を数字で記入する。
これが四百数十冊の調査票について行われるのだ。ちょっと考えてみても大変な数の専門家とアルバイターが必要だとわかる。まさにプロジェクトという名前がふさわしい大規模な研究である。国語研究所の変化第一研究室でLAJや数多くの言語地図の作製など大勢の人がかかわる研究に手慣れていた佐藤さんが運営の元締めをしたのは当然だった。

調査を開始した段階で調査票や記入票がすべて揃っていたかというと、そんなことは全くない。調査文を考えるのはそれなりに手間がかかることであり、しかも調査票1冊あたり600語以上あるので調査票を作るだけで何日もかかるのは理解できる。調査票も記入票もぎりぎりになって間に合わせるような具合で、余裕を持って校正することはできなかった。当時のことなので調査票も記入票も原稿は鉛筆の手書きだった。調査文には番号が振られていたが、ごくまれに調査文の番号の並びと記入票のそれが食い違っていることがあった。これはあとで入力ミスを誘発し、コンピューターのデータ化の悪夢の原因になった。後で考えると適切でない調査文もあったかもしれない。そういったものもチェックを逃れていた。
調査が中盤にさしかかったころ、調査語の順番が辞書順から逸脱している部分もあることからコンピューターで最終結果を出力することを考え、佐藤、馬瀬の両氏に提案した。あとで考えればこれも間違いのもとで、最初からコンピューター処理を前提として仕事の設計をしていたわけではないのだ。
では、最初の段階でどんな形態で資料を本の形にするかについて明確なイメージを持っていたかというとこれも疑問なのだった。このプロジェクトでは作業がある段階まで進んだら、そこで初めて次の段階の作業のやり方を考えるという場当たり的な進め方をしていたように思う。
今から考えると当時のコンピューターはハードソフトとも絶望的なくらい力不足だった。コンピューターは1982年ごろにこのプロジェクトとは関係なく導入した8ビット機で使える言語はBASICでメモリーは64Kだった。8インチのフロッピーディスクがついていたが、これが絶望的に遅かった。
もちろん、当時はエクセルなどなかったので、データの修正や集約はすべて自作のプログラムで行った。データの入力は外注したが、納品されたフロッピーディスクをチェックして必要な修正を行うのに膨大な時間を要した。これもすべてあとで考えたことなのだが、コンピューターの乏しいメモリーを最大限に使うようなプログラムを作っていたら、作業時間は半分に減ったかもしれない。余裕を持って考えていれば、もうちょっとうまくやれたのではないか。
データが全部集まったところで、そのデータを正しい順番に並べる作業がある。これはあまり苦労した記憶はない。何十枚かのフロッピーを国語研究所の大型計算機（今で言うところのメインフレーム）に持って行って一本の磁気テープにまとめる。これから大型計算機に接続したレーザープリンターで報告書の版下を出力するのだ。
これも今から考えると綱渡りのようなものだった。大型計算機とレーザープリンターは機種更新で研究所に導入されたばかりで研究所に熟達した人はいなかった。マニュアルと首っ引きで手探りで何度も失敗して最後に世の中に出せる品質のものができたのだった。このときは教育一研の茂呂雄二さんにお世話になった。これは忘れてはならない。
『東京語』の教訓は、簡単に言えば「最終形態をどうするかを考え、そこから仕事の手順を逆算すべき」ということになる。全体像がわかったら、そこから細部をできるだけ詳細に考える。そうすれば、必要な労働量も経費も所要期間も大きな誤りなく計算できる。人間は神ではないから予想外のことも起きるかもしれないが、最後にどうなるかが見えていれば落ち着いて対処できるはずだ。泥縄的対応に終始した『東京語』はいろいろな局面で無謀すぎた。最初の見通しも甘かったし、あのハードとソフトでコンピューターによる処理に踏み切ったのも無謀だった。「めくら蛇におじず」そのままだ。

この教訓を踏まえて『シン東京語』を構想する。

コメントする コメントをキャンセル

コメントするコメントをキャンセル