私は最初から方言コーパスを作ろうと思ったわけではない。徳之島方言と標準語のテキストからKWICを作ってみたら、簡単に助詞を見つけることができた。それだけでなく、助詞に複数の異形態があることもわかった。しかし、KWICに… 続きを読む 方言コーパスとは何か
投稿者: msawaki
島のカフェ
Fさんがしゃれた喫茶店に連れて行ってくれた。与名間という海水浴場のある集落のカフェ・ブルーだ。木製の小さいしゃれた看板を歩道に出してあるだけで、外見はただの民家だ。知らない人は通り過ぎてしまうだろう。 お店には靴を脱い… 続きを読む 島のカフェ
徳之島での仕事
私が徳之島で4ヶ月を過ごした目的は学問のためだった。 もっと言うと日本で最初の方言コーパスを作るためだった。あとから考えると、4ヶ月という時間でコーパスを作るのは無謀と言ってもいいことだったがほかに方法はなかった。方言… 続きを読む 徳之島での仕事
徳之島プチ移住
信州大学を退職した2015年、徳之島に4ヶ月ほどプチ移住をした。 プチ移住は一時の思いつきではない。徳之島の方言を研究するうちに、一年に1週間だけ調査に行って研究することの限界を痛感するようになった。だから、在職中もど… 続きを読む 徳之島プチ移住
方言コーパスの作り方
コーパスの作り方の概略を記すことにする。必要だったプログラムは数十本だが、個々についての説明は別稿にゆずる。ここでは「KWICの作り方」にならって考え方だけを記す。 1. まず、テキストを形態素で切って区切り記号を挿入… 続きを読む 方言コーパスの作り方
KWIC、コーパスにコンピューターが不可欠な理由
KWICとコーパスはコンピューターなくしては作り得ない。日本で言語研究にコンピューターの導入したのは国研が最初だったが、テキストデータがあればKWICを作るのが国研ではお決まりだった。デジタル化したテキストとコンピュー… 続きを読む KWIC、コーパスにコンピューターが不可欠な理由
KWICを作る手順
KWICは普通コンピューターのプログラムを動かして作る。プログラムを組み合わせて作業するので、どんな手順になっているかを以下に説明したい。 ウィキペディアにもKWICの説明がある。なかなかわかりやすく書いてあるのだが、… 続きを読む KWICを作る手順
KWIC
コーパスを作るためにはまずKWICを作らなければならない。徳之島方言の研究ではKWICからコーパスを作ったが、最初からそれを狙ったわけではない。予期しない形で『日本語二千文』の徳之島方言版ができて、それも最初から電子的… 続きを読む KWIC