関西弁コーパスの読み込み

ヘファーナンさんの関西弁コーパスのテキストをコンピューターで調べることはしていたが、全テキストを読み通すことはしていなかった。中身を全く知らずに分析しようとしていたことになるので、さすがにこれはまずい。
そこで、4日前から読んでいるのだが、これが全然終わらない。今のペースだとあと5日かかるかもしれない。総字数が200万字を超えているので、普通の文庫本20冊分ぐらいの分量になる。すぐ終わるだろうと思っていた見通しが甘かった。
まだ途中だが、テキストを読むことで分かったことが多い。全く無駄なことをしているわけではない。
関西弁コーパスの材料はヘファーナンさんのゼミの学生(たぶん)が1時間程度のインタビューを行って録音したものの文字化である。スピーカーは10代から80代までの各年齢層にわたっている。インタビューアーは同じ大学の学生や自分の家族、親類、知人からライフストーリーを聞き出している。そして文字化もインタビューアーが行っているらしい。ひとりのインタビューアーが何人ものスピーカーを担当して文字化も行ったケースもあるようだ。大変な労力だったと想像する。
 インタビューアーの母親がスピーカーの場合、なぜか最後まで「ですます調」の標準語で通してしまうということも起きる。母子でふだんは方言でやりとりしているらしいのだが、マイクを意識しすぎるせいなのか。
 話がはずまないときは「命の危険を感じた経験」「趣味」「旅行でいきたいところ」など、事前に用意されているトピックを聞き出すように指示されているらしい。
 表現が豊かで生き生きしているスピーカーもいるし、そうでない人もいる。内容について細かいことは省くが、一つだけ印象に残ったことを言うと、高校生から老人までほとんどの人それも学歴や職業など関係なしに海外旅行あるいは滞在(留学・仕事)を経験しているのが驚きだった。これは関西学院大学の総合政策学部の学生がインタビューアーだからなのか。外国になじみがある家庭からこの学部に進学することが多いということなのだろうか。
文字化の正確度は録音を聞かなくても文字化テキストである程度分かる。文字化がいい加減だと字面から意味がとれなくなってしまう。逆に意味が通りやすくなるように合理化したかどうかは見抜けないのだが。
それでもスピーカーの意図したことがインタビューアーに通じていないために生じた聞き間違いは散見される。例をいくつか挙げよう。

ドイツでおいしかった食べ物の話で「神経のハムをはさんだサンドイッチ」。神経を選んで食べるというのは聞いたことがない。これはSchinken(シンケン、ドイツ語でハム)だろう。
第二次世界大戦の時の話で「打ち手しあわん」。今の学生だったら知らなくても全然不思議はないが、これは「撃ちてしやまん」に違いない。
「地検」となっていたが、それでは意味が通らない。「知見」であれば意味が通る。
「干渉地帯」→「緩衝地帯」
田んぼをたくさん持っていて「大傘下」→「財産家」

気がついたものは記録しておくことにしたが、そんなに多くはないので、大きな問題ではないだろう。記録者にとって未知のことばだったために聞き間違えたり文全体の意味が分からなくなったことは方言談話資料の整備をしたときにも経験した。たとえば、兵隊時代の話で「モクジュ」というのが出てきたときに前後の関係で「木銃」ではないかと推測した。
聞き間違いの例を見ていて分かるのは人間は自分のことばに引き寄せて聞き取りをするということである。シンケンがハムのことだと知らなければ、音が近い「神経」だと思ってしまう。国研の先輩の江川清さんは神戸の出身だったが、「挟む」をハソムと発音していた。ところが、私が指摘するまでそのことに気がついていなかった。もし、江川さんが神戸出身のスピーカーの文字化をしていて、そこに「ハソム」が出てきたらハサムと書くだろう。あとで第三者が字面だけでチェックをしても、この表記ミスは発見できない。
一方で、ネーティブだから聞き取れる部分も確かにある。
正確な聞き取りのためにはネーティブと非ネーティブの両方の耳が必要なのだと思う。

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です