2024年4月20日(土)

AIはシンギュラリティの夢を見るか?

2016年11月9日

 10月4日に開催されたグーグルのイベントの冒頭で、サンダー・ピチャイCEOは、グーグルはモバイルファーストからAIファーストにシフトすると宣言した。いうまでもなく、これまでのモバイルファーストの時代のプラットフォームは、グーグルのAndroidとアップルのiOSだ。その上にサードパーティが様々なアプリやサービスを開発し、それを利用するためのスマートフォンが進化するというエコシステムが生まれた。

サンダー・ピチャイCEO(GettyImages)

 AIファーストとは「AIを起点に全てのサービスや製品を考える」ということだが、モバイルを無視するということではない。スマートフォンの市場が成熟してハードウェア自体はコモディティ化してしまったが、スマートフォンが行き渡った世界で、グーグルはAIによって次の大きな変化を起こそうとしている。

 そのひとつがソフトウェアエージェント(代理人)だ。 ソフトウェアエージェントは、パーソナルアシスタントあるいはチャットボット(おしゃべりするロボット)などと呼ばれることもあり、人と人の対話のように、音声やテキストで人と自然に対話することを目指している。

ソフトウェアエージェントとは?

 ソフトウェアエージェントというコンセプトは新しいものではない。スティーブ・ジョブズがアップルのCEOとして招聘したジョン・スカリーが、1987年に自著『Odyssey』の中でコンピュータの未来像として、人と音声で対話するナレッジナビゲータというものを描いている。ジョブズが去った後、アップルはPDAの開発を本格的に開始したが、その延長線上にナレッジナビゲータのコンセプトがあったようだ。PDA(パーソナル・デジタル・アシスタント)という言葉もスカリーが造った。

 秘書に「今度の金曜にレストランを予約しておいて」と指示したり、友人に「どこか紅葉の綺麗なところ知ってる?」と質問したりするようにソフトウェアエージェントに話しかける。ソフトウェアエージェントは、不足している情報を聞き返したり、過去の情報からの推測によって補ったりして指示を実行し質問の答えを返す。

例えばレストランを予約するときには、レストランを検索し、選んだレストランに電話やホームページから予約をするだろう。そして同行する友人にメッセージを送ったり、自分の予定表に記入したりする。このような一連の流れをアクティビティ(活動)、それぞれの作業をタスクと呼ぶ。音声で対話するソフトウェアエージェントが、タスクを処理するプロセスは次のようなものだ。

  1.  音声認識:音声による質問や指示を言語(テキスト)にする
  2.  自然言語処理:言語の意味(何をすべきか)を理解する
  3.  必要な処理を行う
  4.  自然言語処理:応答すべきことをテキストにする
  5.  テキスト読み上げ:テキストを音声にして応答を返す

 すでにアップルにはSiriがあり、アマゾンにはEchoという家の居間などに置くデバイスで人と対話するソフトウェアエージェントAlexaがある。グーグルは新しいソフトウェアエージェントGoogle Assistantを発表した。グーグルが開発したスマートフォンPixelや、Echoに似たGoogle Homeというデバイスを使って、Google Assistantと対話することができる。

 これまでに収集した膨大な情報を機械学習することによって、グーグルはGoogle Assistantの「音声認識」と「自然言語処理」の精度を飛躍的に向上させたという。そして傘下のディープマインドが開発したWaveNetという「テキスト読み上げ」のソフトウェアが、(米国英語に関して)これまでのものよりも格段に自然になり人間の話し方に大きく近づいたと説明した。ディープマインドが開発した囲碁ソフトが世界最高の棋士に勝利したことで話題になったが、WaveNetはディープラーニングという同様のAI技術で開発された。

 ソフトウェアエージェントは、検索の結果や知識ベースから質問の答えを探したり、自社あるいはサードパーティのアプリやサービスと連携して指示を実行することによって「必要な処理」を行う。「音声認識」「自然言語処理」「テキスト読み上げ」も重要だが、サードパーティのアプリやサービスとの連携によって、魅力的なサービスをどれだけ提供できるかが、ソフトウェアエージェントの成否を左右する。すでにアップルとアマゾンは、自社のソフトウェアエージェントと連携するための開発者向けの環境をサードパーティに公開しており、グーグルも12月から提供を始めるとアナウンスしている。


新着記事

»もっと見る