群馬の談話資料のKWIC – 方言コーパスと言語地理学またその周辺

やっとKWICが一つできた。群馬の談話資料を材料にしている。
KWICとはこんなものかと見ていただきたい。

以下はデータのクレジット：
国立国語研究所のデータベース内の『方言談話資料（１）山形・群馬・長野』のテキストファイルを使用しています。
国研HP内のテキストデータのリンクは

https://mmsrv.ninjal.ac.jp/hogendanwa_siryo/data/S0010_01.zip

です。

これは「KWIC作成で学ぶプログラミング」の材料として使用することを目的として作ったものである。KWICを作るという具体的な目標があれば、そのためにこれこれの技術が必要だという説明が腑に落ちるのではないかと思う。
プログラミングが難しいと思われているのは、アルゴリズム的な思考に慣れていないことと、覚えなければいけないことがたくさんあり、教科書の例題も素数を見つけるとかの数学的な要素が強いもので文字処理が後回しにされていたりするからではないかと思う。
簡単なプログラムから始めてKWIC作成がゴールになるように講座を構成するために少し時間をいただきたい。数学があまり得意でない人でも、ゴールが目の前に見えていればモチベーションが持てるのではないかと思う。食わず嫌いでプログラミングをやったことがない人も、試みたけれど挫折した人も目の前のゴールを目指していくうちに自然にスキルが身につくような講座でありたい。
KWICを作るのに数学は必要ないことは重ねて申し上げておく。

このKWICを作るために元のデータを校正して、プログラムにうまく乗るように作りかえる作業が必要だった。方言と標準語訳を対照したKWICにするためには双方の文節が１対１で対応していなければならない。この「同期をとる」作業が一番手間がかかった。方言で１文だったのが、標準語訳では２文になっていたり、文同士で文節の数が一致していなかったりしていた。これを人力で行ったら大変なことになるので、9本ぐらいのプログラムをかけてデータを整えた。もちろんそのつど手で直すべきところは直している。
校正は機械的な作業だと勘違いする向きもあるかもしれない。だが、データの校正は創造的な面もある。不幸な家庭がみんな違うように、間違いの出方は談話資料それぞれで特徴があるし、なかには非常に個性的な間違いもある（「アンナカレーニナ」を読んだことはないけれど、ちょっとトルストイ風に言ってみた）。そのような間違いをうまく見つけ出して修正するのは想像力を要する。
今回のKWICでは校正のし残しと見られるものが最初と最後の部分にみられるが、これはわざとそのままにしておいた。間違いの例となるかと思う。
プログラミング講座では完成したデータを使うが、一応の技術を習得したあとでデータの調整のプログラムの説明をする予定にしている。

ダウンロードはここから

コメントする コメントをキャンセル

コメントするコメントをキャンセル