――それがうまく処理できれば、音声と音素を結びつけることはできますね。
川添:音声の列を音素の列に結びつけて終わりではありません。その次に、音素の列を文字や単語の列に対応させばければならないのですが、同じ音素の列に対応する文字列や単語列はたくさんあります。たとえば、この本の主人公であるイタチという音素列にしても、それに対応する単語列には、「いたち」「イタチ」「鼬」「胃たち」「射た血」……と膨大な数の候補があります。
そこで、聞き取り対象の単語を限定したり、どの単語のつぎにどの単語が来やすいかという情報を機械に与えたりなどといった工夫が必要になります。それらの工夫がうまくいけば、機械は、聞こえた音の連なりに一番ふさわしい単語を探し、出力できるようになります。近年の音声認識技術の発達は、深層学習(ディープラーニング)などのより良い機械学習の方法が開発されたことや、大量のデータが使えるようになったことなどが、大きな要因として挙げられます。
――聞き取り、出力するだけでも、これだけ複雑な言葉の仕組みが関わっているのですね。人間は、そういった仕組みをいつ頃から身につけているのでしょうか?
川添:ある研究によれば、赤ちゃんはお母さんの体内にいるときから、周囲で話されている言葉のリズムとイントネーションを手がかりにして単語の区切り方を学んでいるそうです。そして生後は、単語の中の音声の特徴や、単語の意味の違いを考慮することによって、音声と音素の結び付け方を学んでいるということです。機械には聞き取り対象の単語の情報や音声のデータが大量に与えられますが、赤ちゃんには当然ながら、そのようなものは与えられません。そのような状況で、赤ちゃんは音と単語、また音と意味の関係を無意識に分析しながら、聞き取り方を学んでいるようです。
――最初の段階である「話し言葉の聞き取り」がこれほど難しいということは、人工知能が我々と同じように言葉を理解するのは難しいということでしょうか?
川添:私個人は、少なくとも、いまの技術の延長上では、人工知能が私たちと同じように言葉を理解するのは難しいだろうと考えています。機械に人間の言語能力の完璧な再現を求めると、人間の無意識の能力が壁として立ちはだかります。この無意識の能力自体が、まだ完全に解明されていないのです。
ただ、将来的にどんな技術革新があるかはわからないので、これはあくまで現時点での見解です。
――もっと広く人工知能一般について言えば、昨年からスマートスピーカーが話題となっています。また、人工知能に職を奪われるなどの話題もよく耳にします。
川添:一部には、人工知能にとってかわられる職種もあると思います。ただし、人工知能が台頭することで、人間が勉強や仕事をはじめ、なにもしなくても良い時代になるかと言えば、そういうことにはならないと思います。むしろ、よりしっかりと勉強していかなければ、人工知能を制御できる一部の人たちだけが利権を握るようなことになってしまう心配があります。