関西弁コーパス(反省)

方言研究の世界のコーパス研究について、つい言葉が過ぎた面があったかもしれない。もしかしたら、気を悪くした人がいるかもしれないと反省している。今のところどこからもクレームは来ていないので、私の思い過ごしであってほしい。
ただ、内容についてはいけないことを言ったわけではない。
個別方言のコーパス研究は今後の方言研究で重要な位置を占めるべきなのに、そこに意欲を示す人がほとんどいないのはまずいことだ。
方言の研究は、音韻、語彙、文法の分野がまず開拓され、談話の研究がそれに続いたと考えられているが、じつは語彙、文法から談話にかけては広大な未開拓の部分がある。たとえば、文法は実際の運用と意識の間に大きな食い違いがある。「そんな言い方はしない」と言っている人の発言を観察するとその言わないはずの言い方を多用していることが分かったりする。運用を見ることができるのがコーパスで、それ以外の調査法では使用意識をたずねているだけである。
また、形態素同士の共起、非共起の関係もコーパスで調べることができる。形態素の前後関係を見ることができるのがコーパスの最大の醍醐味だと私は考えている。だから、コーパスからエクセルのデータを抽出するのも結構だが、それではせっかくのsyntacticな情報が使われなくなってしまい、コーパスの価値が半減してしまう。
コーパスの研究は以上のように非常に意味があるのだが、それを既製のソフトを使って研究しようとすると壁にぶち当たる。コーパスに入っている情報をできるだけ活用するためにはその場その場で必要なプログラムを作って動かさなければならない。
関西弁コーパスで驚いたのはすべてのデータを統合して一本のテキストファイルにしたときに、それをエディター(秀丸)で読み込めなかったのだ。エクセルで読み込もうとしたときも同じだった。秀丸はとても使い勝手のいいエディターで、かなり大きなデータでも問題なく処理できるのだが、それでも読み込むことができなかった。
そうなると、データをできるだけ小さくして、ある条件のものだけ抜き出して別のファイルを作るなどの方策をとらなければいけない。「ある条件のデータだけ抽出する」プログラムは自分で作ることになる。こんなことは研究を進めていくといくらでもある。ひどいときは1日に10本もプログラムを作らなければならないことも出てくる。分析を行うためにはプログラミング能力が必須ということになる。自分でプログラムが組めない場合は、どんなことをするプログラムが可能か想像する能力さえあれば、プログラマーに指示が出せる。
プログラミング能力があれば、「こんなことができるだろう」と発想が浮かんでくる。だから、近くにいる他人か本人かがプログラミングができるというのは大事なことなのだ。
方言研究の世界で研究に使えるだけのプログラミング能力のある人は少ないらしい。逆に言えば、若い研究者がプログラミング能力を獲得したらそれは大きな武器になる。今まで行われていなかったようなユニークな研究ができるかもしれない。
関西弁コーパスについて言えば、作者のヘファーナンさんは研究者がコーパスを利用することを歓迎しているし、そのような人がいれば援助を惜しまないそうである。
私も関西弁コーパスを利用するためのプログラムやデータを作っているので、連絡をいただければそれを提供することができる。また、プログラミングを知らない人でも関西弁コーパスを分析できるようにするためのテキストも用意しようと思っているので、関心のある人は遠慮せずに連絡をしていただきたい。切にお待ちしています。
関西弁コーパスをちょっと調べてその量に圧倒された。これだけの量があれば本当にいろいろなことができる。非常に大きな可能性を予感するのだが、若い研究者にもぜひこのわくわく感を感じ取ってほしい。老い先短い(笑)私は本格的にやりたいことがほかにいくらでもある。自分のやりたいことをしばし後回しにして関西弁コーパスに肩入れするのはコーパス研究の仲間を増やしたいからにほかならない。若い研究者が参入できる下地を作ったら、私は後方支援に回るつもりである。

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です