コーパスの作り方の概略を記すことにする。必要だったプログラムは数十本だが、個々についての説明は別稿にゆずる。ここでは「KWICの作り方」にならって考え方だけを記す。 1. まず、テキストを形態素で切って区切り記号を挿入… 続きを読む 方言コーパスの作り方
カテゴリー: 方言コーパス
KWIC、コーパスにコンピューターが不可欠な理由
KWICとコーパスはコンピューターなくしては作り得ない。日本で言語研究にコンピューターの導入したのは国研が最初だったが、テキストデータがあればKWICを作るのが国研ではお決まりだった。デジタル化したテキストとコンピュー… 続きを読む KWIC、コーパスにコンピューターが不可欠な理由
KWICを作る手順
KWICは普通コンピューターのプログラムを動かして作る。プログラムを組み合わせて作業するので、どんな手順になっているかを以下に説明したい。 ウィキペディアにもKWICの説明がある。なかなかわかりやすく書いてあるのだが、… 続きを読む KWICを作る手順
KWIC
コーパスを作るためにはまずKWICを作らなければならない。徳之島方言の研究ではKWICからコーパスを作ったが、最初からそれを狙ったわけではない。予期しない形で『日本語二千文』の徳之島方言版ができて、それも最初から電子的… 続きを読む KWIC