シン東京語アクセント資料３ – 方言コーパスと言語地理学またその周辺

『シン東京語』（『シン東京語アクセント資料』）はどうあるべきか。以下に述べることにする。

まず、どんな語を調査対象とするかである。『東京語』（『東京語アクセント資料』）との比較が第一の目的なので、『東京語』調査語彙はすべて含まれる。その上で「１」で述べた東京語の新しい変化を確かめるために形容詞（3拍から5拍の代表的形容詞）と動詞（2拍から5拍の無核と有核の動詞）を調査対象に加え、終止形と活用形を調査する。最初に調査対象語を決めたら、あとで新しい語を加えることは絶対に避ける。前回はそれで失敗している。
調査文は、前回と同じ調査語の場合はできるかぎり同じにして調査文を考える手間を減らすと同時に前回との比較を可能にする。ただし、不適切だった調査文は訂正する。
最終形態（発表形式）をどんなものにするかも再考の余地がある。
前回と同じ紙に印刷したものが主体だが、データとしての利用のためにエクセル形式のデータも公開する。それだけでなく、音声データも公開することにしたい。これは40年後、100年後には貴重なデータとなるはずだ。もとのデータを公開するのは世の中の流れにも合致している。検証可能な形で『シン東京語』が公刊されることでもある。
調査語は通し番号をつけておいて、番号で調査文も調査語も呼び出せるようにしておく。このようにすると、調査票を作るときも何番から何番までと指定するだけで必要な調査文を打ち出すことができる。
アクセントの聞き取りのときは記録用のエクセルのテンプレートをあらかじめ作っておく。「営林署」を例にとると、読みのセルにエイリンショと入っているので、核の位置に’を入れる。核の位置の数字は自動で入るようにしておく。人間が数える必要はない。
データを集約して一つにまとめるのはプログラムで行う。データが集まっていれば、そこから自動的に最終形態の印刷原稿ができる。これも前回とは大いに違っている。
全体的にデジタルデータをプログラムで処理して次の段階に進めるということを徹底するのである。このようにすると、前回よりもはるかに能率的にできるし、経費と期間の見積もりも事前にかなり正確にできるはずだ。
これに加えてAIを活用するとさらに能率的に作業が進む。一番控えめにAIを使った場合、音声データを質問文ごとに切り分けて独立のファイルにする。聞き取りの能率が上がるはずである。音声データを公開する場合、検索しやすいような形になっている必要があり、切り分けはしなければならないのでそれが自動化できればそのほうがありがたい。人手で切り分けるのは前回にはなかった余計な手間をかけることになるからだ。したがって音声データを公開するならAIを活用するほかない。切り分けをAIで行うのは今の技術で十分に可能だ。研究チームにAI技術にたけた人に加わっていただければいいだけのことだ。
この切り分けた音声データは聞き取りの段階でも有効に使える。異なる話者による同じ語のアクセントを比較して聞いたり、同じ話者によるいろいろな形容詞のアクセントを聞いたりできるのだ。
さらにAIを聞き取りに使うことも考えられる。あらかじめ聞き取りを学習させたAIを使って、アクセントの滝の位置を答えさせるのだ。音声の文字化にAIが使われるようになって久しい。適切に学習させればアクセントの聞き取りが研究者レベルでできるはずである。前回は人間二人が聞き取りをするという形でダブルチェックをしたが、AIが使えればAIと人間でダブルチェックができる。
こんなことを書くと機械を盲信しているようだが、そうではない。信用しすぎず、恐れすぎずに付き合えばそれなりに能率が上がると確信している。また、このIT技術とAIを駆使した研究のノウハウを学会全体で共有すれば同種の大量調査が各所で行われるきっかけになる。
研究を始めた段階で全体の見通しができていれば、研究費の申請もしやすい。問題は話者をどうやって探すか、また研究チームをどう構成するかだ。私が元気なうちに『シン東京語』プロジェクトが始まったらぜひ研究チームに加えていただきたい。あまりでしゃばらないつもりだが、顧問ぐらいの仕事はできるはずだ。

コメントする コメントをキャンセル

コメントするコメントをキャンセル