関西弁コーパス

このブログでも書いたが、私よりずっと前に方言コーパスを作っていたのが関西学院大学のヘファーナンさんだった。私とはやり方が違い、ヘファーナンさんの方法は琉球方言には適用できない(と私は信じている)。
ヘファーナンさんのやり方はまさにコロンブスの卵で、日本語の書き言葉に適用されている日本語解析ソフトを文法や辞書を手直しして関西弁のデータに適用する。ここから先は私の推測だが、そうやって出てきた結果はエラーだらけになる。しかし、正しい結果が80%ぐらいあり、エラーも傾向が分かっているので、エディターの一括置換のようなものを使えば比較的少ない手間(もちろん全部人手を使った場合に比べて)で修正できる。おそらく何度も校正する必要があるだろうが、プログラムを介在させることで書式の間違いなどは回避できる。ヘファーナンさんご本人にこのことは確認した。人手による作業をできるだけ減らすことによって人為的なミスを減らすという哲学が私と一致している。それにしても膨大な手間がかかったであろうことは容易に想像がつく。しかもおそらく独力でなしとげた。敬意を表したい。
私は最初から徳之島方言のコーパスを作ることしか考えていなかったので、このような方法には思い至らなかった。ただ、東北方言や九州方言の一部には使えない(辞書を修正するのが大変)のではないかと思う。でも、試みる価値はあるだろう。
ヘファーナンさんのコーパスはkvjcorpus(kvjはKansai vernacular Japaneseの略)で検索をかければ、簡単に見つけることができる。膨大なデータである。一部をダウンロードしたが、関西弁ネイティブでない私にはどうやったら面白い結果を出せるか見当がつかない。とりあえず、語彙統計を出すのはできるし、それが研究の出発点になるだろう。私自身はこちらに深入りする余裕はないが、利用したい人がいれば助言や手助けは喜んでしたいので連絡をください。
なお、このコーパスの利用条件だが、成果を公表するときにkvjcorpusを使ったことをきちんと断ればそれでいいそうである。2年前の方言研究会では「このコーパスで金儲けはしないでください」と笑いをとっていたが、これも大事なことである。でも、研究を始めるときにヘファーナンさんに連絡しておくのがエチケットかと思う。
国研の方言コーパスCOJADSは標準語訳のほうを解析ソフトにかけたものをベースにしたパラレルコーパスである。だから標準語の形態素をインデクスにしてその形態素に対応する要素がある文節を検索できる。しかし、たとえば東北方言のトーキョーサイク(東京へ行く)のサをダイレクトに検索はできない。東北方言のサは標準語の二、へ、ヲに対応するのでサの出現するすべての文節を見つけるためにはこの三つの助詞をインデクスにしなければならない。
COJADSは標準語を共通のインデクスとすることで全国方言の一覧、対比ができる。これはこれで便利ではあるが、方言のほうをベースにしたコーパスには別の可能性がある。個別の方言だけを問題にしたいときはこちらのほうが都合がよい。
『方言の研究 7』の井上文子さんの論文によれば、COJADSの研究はまだまだ続くようだ。そうであれば、ヘファーナンさんにアドバイザー(どういうステイタスかは私の想像の関与するところではない)をお願いして、ノウハウを教わり、方言主体のコーパスをも国研で構築していくべきではないだろうか。COJADSとは別に、平行して個別方言のコーパスを作る。これがホントのパラレルコーパスなんちって。(失礼)
衆知を集めて最善を目指すのが国研としてのあるべき姿だと思うのである。

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です