私は最初から方言コーパスを作ろうと思ったわけではない。徳之島方言と標準語のテキストからKWICを作ってみたら、簡単に助詞を見つけることができた。それだけでなく、助詞に複数の異形態があることもわかった。しかし、KWICに… 続きを読む 方言コーパスとは何か
タグ: 方言コーパス
方言コーパスの作り方
コーパスの作り方の概略を記すことにする。必要だったプログラムは数十本だが、個々についての説明は別稿にゆずる。ここでは「KWICの作り方」にならって考え方だけを記す。 1. まず、テキストを形態素で切って区切り記号を挿入… 続きを読む 方言コーパスの作り方
KWICを作る手順
KWICは普通コンピューターのプログラムを動かして作る。プログラムを組み合わせて作業するので、どんな手順になっているかを以下に説明したい。 ウィキペディアにもKWICの説明がある。なかなかわかりやすく書いてあるのだが、… 続きを読む KWICを作る手順
KWIC
コーパスを作るためにはまずKWICを作らなければならない。徳之島方言の研究ではKWICからコーパスを作ったが、最初からそれを狙ったわけではない。予期しない形で『日本語二千文』の徳之島方言版ができて、それも最初から電子的… 続きを読む KWIC