KWICとコーパスはコンピューターなくしては作り得ない。日本で言語研究にコンピューターの導入したのは国研が最初だったが、テキストデータがあればKWICを作るのが国研ではお決まりだった。デジタル化したテキストとコンピューターがあれば、KWICは簡単に作れる。逆にKWICを手作業で作ろうとしたら大変だ。今はエクセルがあるので簡単にできそうだが、マウスを動かして切り貼りを延々と続けなくてはならない。単純作業の繰り返しはかならずヒューマンエラーを生む。エラーがあったときに目視では残らず見つけることはできない。手間と作成のための時間はデータの量に比例する。
ところが、コンピューターを使えばKWICを作る時間はほとんどかからない。一瞬でできてしまう。データが多少増えても全く問題がない。もちろん、プログラムさえ正しければエラーはゼロである。しかもそのプログラムは比較的単純なものなのである。
一見して人手で作れそうにも見えるが、実際にはコンピューターを使ったほうがずっと簡単にできる例はほかにもある。
2009年の報告書につけたDVDでKWICを表の形で表示しているが、これを見た人が「大変でしたね」と言ってくれたことがある。よくよく聞いてみたら、手作業で表を作ったものと思い込んでいるのだった。
あれはhtml言語で書かれているが、データ量は3MBを超える。それに対してもとのデータは650KBしかない。この差はhtmlで表示するためのコードである。3MBものデータをいわゆるタグ打ちで、手で入力したと思われたのだ。300万字の英数字だから人手でできないことではない。何十冊ものペーパーバックの英字を打ちこむのと同じである。きっとそれだけで何年もかかるだろうが。
私にはそんな根気も時間もないし、間違いなく作業をする超人的な注意力もない。これは、福嶋秩子さんのお嬢さんに見本の表を作ってもらって、それをお手本にしたテンプレートにテキストデータを流し込むプログラムを作ったのである。こう書くと非常に高度なことをしているようだが、プログラムとしては分量こそ多かったが単純なもので、そんなに大したものではない。
でも、2009年の報告書を受け取った人のなかに同じような誤解をしている人がいるのではないかと今さらながらに心配ではある。もう一度繰り返すが、あれを手入力だけで作ることは事実上不可能である。プログラムを書いて一日で作ったのだ。
コーパス作成もやはりコンピューターを使わなければできない。KWICと同じで人手でできないことはないが、かならずミスを生じる。それに膨大な時間がかかる。KWICと違うのは非常に多くのプログラムを使って人手による作業を組み合わせなければならない点である。機械的な人間の判断を必要としない作業はコンピューターに任せ、言語学や方言の知識を必要とする判断を伴う作業を人間が行う。人間による作業のあとにはコンピューターによるチェックを入れてできるだけミスを減らす手立ても取り入れる。
このようにしてもやはり長い時間をかけなければコーパスはできない。しかし繰り返しになるが、すべてを人手で行うとしたら必要な時間ははるかに長くなる。もちろん、ミスも頻発するだろう。結果として人手だけで作るのは不可能ということになる。
蛇足のようだが、入力ミスについて私見を述べたい。入力ミスがあると、そのミスをした人間を責める風潮がある。私はそれは間違っていると思う。人間に入力させたらミスの多い少ないの差はあってもミスが生じることに変わりはない。そうであれば、人間による入力をできるだけ減らすか、ミスを発見できるようにするのが理にかなっている。人手による入力に全面的に頼るような仕事の設計は間違っている。
なお、機械で(コンピューターのプログラムで)ミスを検出するのは有効なやり方ではあるが、ミスをすべて検出できるわけではない。一定の書式にしたがっているかどうかをチェックするのが普通だが、これでもミスの大部分を検出できる。ミスがゼロである保証はないが、できうるかぎりは少なくできるのである。