「徳之島二千文」からKWICを作る

 「徳之島二千文」の第一稿を見て、沢木はそこからKWICを作ることを思いついた。KWICは沢木が国立国語研究所(国研)に勤務していたときから身近にあった。国研では電子化されたテキストがあれば、それをもとにKWICを作るのはルーチンのようなものだった。ただし、私自身が業務としてKWICを作ったことはない。
 「徳之島二千文」のKWICがそれまでのKWICと異なる点は、本文(徳之島方言)と一緒に標準語文もKWIC化してしまうことにある。徳之島文の見出しの下にそれに対応する標準語文の部分を文脈付きで示すのである。
 KWICを作るにはいわゆる単位切りができなければならない。英語などでは分かち書きで単語が空白で区切られているが、徳之島文も標準語文もそうなっていない。しかも、徳之島文と標準語文の切り方は一致している必要がある。対応ができていないと困る。
 形態素で切るのが理想的だが、徳之島方言を形態素単位で熟知しているわけではない。そこで、文節で切って対応をとることにした。文節単位でも意味の対応がとれなければ、もっと大きい単位で切って意味の対応を保つようにした。たとえて言えば、「驚き桃の木山椒の木」が方言文で、「びっくりした」が標準語文だったとき、どこが「びっくり」に対応するか分からないので、文全体を一対一で対応させるようなものである。
 文節といってもこのような「ゆるい」切り方であれば、大きな間違いを犯す心配はない。徳之島文と標準語文を交互に見れば切り方はなんとなく分かる。最初から厳密さを要求するのではなく、アバウトなやり方でもまずKWICをつくるのが大事だと考えたのである。困るのは国際学会で発表するときである。文節に当たる言い方は英語にはないし、聴衆は日本語の構造を知らないのが普通だからである。
 私にとって文節切りは単調な作業であった。喜びのない労働だったが、労働量としてはそんなに大変なものではない。それだけに集中すれば1週間で終わる。実際は普段の業務の合間だったので何か月かかかったかもしれない。そのあとのプログラミングは1日もかからないし、プログラムの実行はあっという間だった。
 KWICを作ってみたところ、意味のある結果が得られそうな感触があった。キーを文節の頭から見ていって大小を決めるやり方(順引き)と文節の最後尾から見て大小を決めるやり方(逆引き)の両方を使うと文節の前部にある自立語と文節の後部にある付属語が見えてくる。
 そこで、2001年福井大学で行われた方言研究会研究発表会で沢木・福嶋・中島・岡村の連名で「方言コーパスを利用した方言研究の可能性ー『徳之島方言辞典』作成のために」を発表した。ここでは「方言コーパス」という言葉をKWICを表すものとして使っている。このことは日本大学の荻野さんから質疑応答でツッコマレたが、かなりあとまでこの意図的な誤用は続いている。今から思えば晩年だった柴田先生がわざわざ福井までいらっしゃって質問までしてくださったことは大切な思い出である。
 KWICを材料に福嶋秩子さんは動詞活用を研究した(「方言コーパスを利用した動詞活用の分析ー徳之島方言二千文を用いてー」2007年日本方言研究会第85回研究発表会)。もともとの対面調査による研究の土台があってのことだが、400以上の動詞について基本的な活用形を調べ、活用のすべての類型を列挙した、たぶん琉球方言でもあまり見られない動詞の活用についての包括的な研究である。KWICで得られた活用形をてがかりに対面調査で欠けた部分を補ったようである。
 私はKWICから、助詞が複数の異形態を持つのではないかと考えた。たとえば、duは前後の関係でNduという形を持つ。今まではNduのNは前接する名詞の最後の部分ではないかとなんとなく考えていたが、KWICを見てみるとNが助詞の一部だと考えたほうがすっきりした解釈ができることがわかった。Nという音素(実際の発音は[ŋ])が形態素の先頭に立つのは心理的に抵抗があってそれが正しい解釈を邪魔していたのである。

沢木・中島・福嶋の科研費の記録

「徳之島方言辞典作成のための研究」平成15~17年度基盤研究(B)(2)研究代表者澤木幹栄 (課題番号15320050)
報告書『徳之島方言二千文辞典』

平成18~20年度文部省科学研究費(基盤研究B)「徳之島方言辞典語彙編の作成のための研究」(課題番号18320066)
報告書『徳之島方言二千文辞典改訂版』

平成23~25年度文部省科学研究費(基盤研究B)「奄美方言データベース作成のための研究」(課題番号23320095)
報告書『徳之島方言辞典 基礎データ版』

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です