10月26日の国研のコロキウム(小規模な研究発表会)は小木曽智信教授の「方言書き起こしテキストの形態素解析に向けて」だった。
この御時節なのでズーム開催なのだが、おかげで東京まで足を運ばなくても聴講することができる。国研の方言コーパスの研究の方向性が変化したのだろうか。関心があったので聴講することにした。
以下、内容を簡単に述べる。
これまで国研が公開している数種類のコーパスは小木曽さんが開発したUnidicというソフトを使っている。このUnidicは98パーセントぐらいの正確さで解析を行っている。そのなかで、関西方言はすでに上方の洒落本のテキストという形で解析が行われていて、十分な精度が得られている。
驚いたことにSP盤の落語録音を文字化したものをUnidicにかけたところかなり正確に解析できたらしい。ヘファーナンさんの関西弁コーパスの原文を解析したところ、ヘファーナンさんのmecabを使った解析よりいい結果が得られた。
また、「ふるさとことば集成」の中津川方言のテキストを解析したところやはり十分な精度が得られている。
標準語にある程度近い方言であれば解析が可能だと言うことになる。
以上が発表の内容である。
何のことはない。国研にはすでに方言テキストを解析するためのソフトがあったのだ。今は標準語訳の解析結果を利用するパラレルコーパスの研究にリソース(お金と人的資源)をつぎこんでいるが、それが正しいかどうかは問題だ。パラレルコーパスが全く無意味とは言わないが、本来のコーパス(面倒なので以下は単に「コーパス」とする)の研究を主に、パラレルコーパスを従にするぐらいでちょうどいいのではないか。
方言コーパスが使えたら何がいいか。言語学者の仕事はコーパスを使って何かをすることであって、コーパスを手にしたあとが問題だ。ただコーパスを欲しがるのではなく、コーパスができたらその先にどんな研究の未来があるか、その設計図を持っていなければならない。
国研でいろいろな方言のコーパスを作成するのであれば、まず第一に語彙統計を作ってほしい。パラレルコーパスを使って方言間の比較をしているが、比較が可能な同質性が保証されているかどうかわからない。また、テキストがその方言の代表となるべき量を持っているかもわからない。語彙統計ができればそこが解明できるかもしれない。
方言コーパスを使って何ができるか、私なりの考えはあるが、国研は国研でいろいろ見せてほしい。私の小さなブログのつぶやきより国研の方が方言研究界ではずっと影響力が強いのだから責任は大きい。これはアイディア勝負だ。いっちょう見せてもらおうではないか。
「いろいろ」やるためには中納言のようなインターフェース頼みではなく自前のプログラミング能力がなければならないのだが。
そのうえで私の希望だが、ヘファーナンさんと同じような調査をして現代の関西方言の実態がわかるようなテキストを作り、コーパスを作成してほしい。今の関西方言は現代の上方落語(たとえば米朝、もう亡くなってからだいぶになる)の方言とは違う。SP盤の落語とはもっと違う。おそらく、20年後の関西方言はもっと共通語化が進んでいることだろう。だから今現在の関西方言(status quo)は今しかないのだ。それを記録することは重要だ。コーパスを作れば、SP盤の落語の上方言葉、浮世草子の上方言葉との比較もできる。関西方言の重要性を考えれば、status quoの関西弁コーパスは十分すぎるほどの価値があると思う。
それからもう一つはウチナーヤマトグチと言われる、沖縄本島で普通に使われている言葉のコーパスである。私自身は那覇のことばは自分の耳で聞いていないので想像で言うのだが、これは本土方言に近いのでコーパスを作ることは問題ないだろう。これも今記録しておかなければならないものだと思う。
ウチナーヤマトグチではない、国研の『沖縄語辞典』が対象にしているような沖縄方言(那覇首里の方言)は現在も収集可能なのかは不明だが、こちらはUnidicをそのために作り直さなければならないらしい。私の方法を使えばできるかもしれないが、たぶんそこまで私の手が回らない。研究が可能なのがあと10年としたら、終活ではないけれどやりかけの仕事すべてにけりをつけるのに十分な時間があるかどうかわからない。
そのうえで新たに那覇首里のことばに手を出す余力はない。残念だけれど。