真鍋淑郎さんのノーベル賞 – 方言コーパスと言語地理学またその周辺

真鍋さんがノーベル賞を受賞した。素晴らしいことだと思うが、これに関してちょっとした感想を持った。真鍋さんが気象のモデリングのために使ったコンピューターのことだ。
ＮＨＫの朝のニュースによれば、真鍋さんが東大で書いた博士論文を読んだアメリカの先生が大リーグに選手を引き抜くようにして真鍋さんをアメリカに呼んだという。朝日新聞の福岡伸一氏の論によれば、アメリカのコンピューターは日本の30倍の性能があったと。
真鍋さんがアメリカに行ったのは1958年のことだが、その頃のコンピューターはIC以前だった。たぶん、1979年に発売された8ビット機のPC8001にも劣るものだったのではないだろうか。計算速度も遅いし、使えるメモリーも少なくて外部記憶も頼りない。そんなコンピューターでよく気象のシミュレーションができたものだ。よっぽど計算時間を使い、プログラミングも工夫したのだろう。しかも、東大のコンピューターは利用者が多くて順番待ちになっていたはずだ。アメリカに行けばコンピューターの性能は30倍で、しかも使いたいときに何時間でも使えるとしたら、日本に留まっている意味は全くない。スクリプス海洋研究所では学生を教える義務もないし、研究費を申請するための書類書きに追われるということもなかったらしい。研究者にとっては夢のような環境だ。どうしてアメリカの国籍をとったのですかなんて愚問としか言いようがない。東大にずっといてもノーベル賞の業績は作れなかっただろう。
真鍋さんはまさにエースとして大事にされたということがよくわかる。
あの時代はコンピューターを利用するためのソフトウェアも整備されてなくて今のように気楽にプログラミングすることはできなかった。1974年ごろの東大の教育用計算機センターを利用するときのやり方はこうだった。まず、プログラムとデータをコーディングシートというものに書いて、それをパンチカードに打ち込む。パンチカードはちょっと硬めの紙に穴をあけて文字や数字を表すもので、パンチカード1枚で1行分の情報になる。数百行のプログラムに同じぐらいのデータを付け、それを奥行きが70センチぐらいある専用の引き出し（としても使える入れ物）に入れるとずっしりと重い。これを朝にセンターの受付に出すと、午後にはパンチカードと一緒に印刷結果を返してくれる。センターの利用者が多い日は1日にパンチカードを１往復させるのが精一杯で、プログラムに間違いがあったりすれば、その日のうちに挽回はできない。この1974年の状況は今考えてみるとひどいものだが、真鍋さんが日本を去る直前の1958年はもっとひどかったはずだ。
アメリカはコンピューターの性能だけでなく運用の面でも真鍋さんにとって天国のようなところだっただろう。
1989年の論文で真鍋さんは全地球を対象にした海洋と大気を組み合わせた気象のモデルを扱うようになったとのことだが、コンピューターの進歩にあわせて真鍋さんの構想が発展深化したと想像する。ハードの性能が足かせになってやりたくてもできなかったことが、その制約がとれるとできるようになる。
それに近いことを何度か経験した。

以下は自分の経験である。
GAJ（方言文法全国地図）の全データを操作できるデータベースを作ろうとしたが、1990年に私が国研を離れるまでの間にそれは完成しなかった。完成どころか紙ベースのデータを電子化するところで終わってしまった。当時はMSDOSの時代で内部メモリーは640KBしかない。GAJのデータはその何倍もあるので、データを全部読み込むのは無理だ。音声記号を表示するのはどうすればいいかなど問題だらけだった。
ところが、その10年以上後になって大西さんがGAJのデータを公開したときはWindowsの時代で、コンピューターのメモリーはMBが単位になっていた。しかもエクセルが普及してデータはエクセルに読み込めばよくなっていた。
このエクセルも32ビットのWindows上で動くものは列の数に制限があった。だから、言語調査の結果を入力するとき列を項目とし、行を話者の回答とすると、200項目？以上を一つのファイルに入れることができなかった。ところが、64ビットのWindows（6GB以上の内部メモリーが使える）上では同じエクセルなのに列の数が事実上無制限になる。だからGAJの全データを一つのエクセルファイルに入れるのは現在ならば可能である。
もう一つ別の例を挙げよう。
LAJ（日本言語地図）のなかで、同じ音形だが同一地点で別々の項目に存在しているもの、言い換えるとその地点で同音異義語となっているものを見つけるのは大変な作業になる。項目ごとに作られているファイルから同じ地点の回答をピックアップしてソートして、異なり語形のリストを作る。100項目が対象だったらこの操作を100回繰り返す。この項目ごとのファイルのデータをまとめて一つにしてソートし、2回以上出現したものを見つける。
ところが、項目ごとのファイルをすべて読み込んで（ということは100項目×2400地点×100バイト（1地点分の情報を100バイトとする）だから、24,000,000（24M）バイトを内部メモリーに取り込むことになる）、語形を第一キー、地点を第二キーとしてソートすると、同一の地点で複数の項目で出現する語形を簡単に拾うことができる。ファイルの読み込みもソートも同じプログラムのなかでできるので、プログラムを1回動かしただけで完結する。
面倒な操作をせずに簡単な方法で望む結果が出たらそのほうがいいに決まっている。
これもPCで使える内部メモリーが飛躍的に増えたおかげである。いろいろな意味で使いやすく強力になっている現代のPCの威力をぜひ感じてほしい。今のPCを限界まで使う研究が方言の分野でできたらそれはきっとブレークスルーをもたらすものになるだろう。

ところで一番びっくりさせられるのは、90を超えてなおスパコンを駆使する真鍋さんの若さなのだった。

コメントする コメントをキャンセル

コメントするコメントをキャンセル