自分のコーパスを宣伝するために作ったサイトで他人のコーパスを取り上げるのもどうかと思うのだが、それだけの価値があると考えて以下の記事を書いた。
前回の記事を投稿したあとで、せめてコーパスの内容が分かるようなファイルを作るべきだと考えて作業を始めたら思いのほか難航し、1日半がかりで、コーパスの原文が分かるようなファイルを作った。
コーパスは
なんか s,フィラー,,,,,,なんか,ナンカ,ナンカ
みんな s,名詞,代名詞,一般,,,,みんな,ミンナ,ミンナ
自立 s,名詞,サ変接続,,,,,自立,ジリツ,ジリツ
し s,動詞,自立,,,サ変・スル,連用形,する,シ,シ
て s,助詞,接続助詞,,,,,て,テ,テ
る s,動詞,非自立,,,一段,基本形,る,ル,ル
。 s,記号,句点,,,,,。,。,。
EOS
のような形をしている。
原文を形態素に分解し、その形態素に対して情報を付加しているのだが、これでは原文が分かりにくい。
そこで、プログラムをかけて原文を復元したものを作成しようとしたのだが、プログラムがデータの始めを処理したところで止まってしまう。調べてみると、ヘファーナンさんの作ったファイルはutf-8のコード体系だった。エクセルのVBAはシフトJISしか受け付けないのでファイルのコードを変換しなくてはならない。utf-8を使ったヘファーナンさんに罪はない。悪いのは旧態依然としたシフトJISしか使えないVBAの仕様だ。
エディターを使って変換を始めたら今度はハイフンが変換できない。ちょっと絶望的な気分になった。というのはコードを変換すべきファイルが133本もあるからだ。ファイルのなかのハイフンを別の文字に換えてコードを変換するという単純作業を133回しなければならないのだ。私は単純作業が苦手なのでかならず間違える。こんなことを133回もやるなんてと思った。
気を取り直して単純作業に取り組んだ結果、意外なことに半日で作業は完了した。そこでやっと原文を復元するプログラムをかけることになった。ところが、これがなかなか終わらない。やっているのは比較的単純なことなのだが、30分経っても終わらない。例によって私のプログラムのミスで無限ループに入っているのかと思い、強制終了をかけたのだが、調べてみると途中までできていた。つまり、もとのデータが巨大すぎるのだ。
総字数と総文数を表示する機能を追加してプログラムを走らせたところ、総字数は2322191字、総文数は122048と出た。ブラウンコーパスが100万語から出発したことを考えると、十分すぎるぐらいの量である。
今回、原文を復元したのは、全体の約半分である。少なくとも量に関して言えば全く見たことのないようなコーパスである。このコーパスについては2年前の阪大を会場とした方言研究会でヘファーナンさんが発表している。関西弁コーパスのサイトを見るとこのコーパスを材料に得られた数々の成果が挙げられている。
しかし、ヘファーナンさんの阪大での発表以後も、方言学の世界でこのコーパスの話は全く聞かないように思う。コロナのために対面の研究会ができなくなり、特に私のように半ば引退している者に情報が届きにくくなっているせいでそう見えているだけだったらいいのだが。
ヘファーナンさんが国内の学会から結果的に距離を置いているためにこのコーパスがきちんと評価されていないのなら、それは日本の学問にとっても大きな損失である。ちゃんと知っていて評価しないのだったら、それは恥というべきだ。
私も発表したMethodsという国際学会(2017年立川)でもヘファーナンさんが発表していたのに気がついていなかった。不明を恥じるばかりである。