アップルが発表したばかりのHomePodや、アマゾンのEchoやグーグルのHomeというマイク付きのスピーカーが、米国で大きな話題になっています。音声データを分析する米国のベンチャー企業、ボイスラボ(VoiceLabs)の調査レポートは、スマートスピーカーと呼ばれるそれらの製品は、2015年に170万台、2016年に650万台が出荷され、今年は2450万台が販売されるだろうと予想しています。また、コムスコア(comScore)が3月に公開した調査資料によると、米国のインターネットに繋がった家庭の8%にスマートスピーカーがあり、その9割はアマゾンのEchoシリーズだそうです。
ラインやマイクロソフトも同様の製品の発売を計画しています。このように、各社がこぞってスマートスピーカーを発売するのはなぜでしょうか。
ポスト・スマホのプラットフォームの前哨戦
パソコンの時代には、ユーザーはブラウザを使ってインターネット上のサービス(以下、単にサービス)にアクセスしていました。その時代のプラットフォームの覇者は、いうまでもなくWindowsを提供するマイクロソフトでした。ハードウェア市場には、IBMのPC/ATの互換製品で多数のメーカーが参入して競争が激化しましたが、OSはWindowsの独占状態が続きました。
スマートフォンの時代には、マイクロソフトに代わって、アップルとグーグルがプラットフォームの提供者になりました。それぞれiOSとAndroidという、スマートフォン用のOSがプラットフォームです。アップルはiOSを搭載した、iPhoneというハードウェアの販売で驚異的な成長を遂げました。グーグルはAndroid OSのライセンスを無償でスマートフォンのメーカーに提供し、OSに付属した検索や地図アプリなどからの自社のサービスへのアクセスを増やし、広告ビジネスの拡大につなげています。
そして、新たなプラットフォームとして、クラウドの「音声アシスタント」が注目されています。パソコンの時代でもスマートフォンの時代でもそうであったように、AIの時代にもプラットフォームを押さえたものが、新しいエコシステムの利権を握ることになるでしょう。その前哨戦が、スマートスピーカーで始まっているのです。
音声アシスタントはAIによってユーザーの音声を認識し、例えば「リビングの電気をつけて」とか「明日の天気は?」といった命令や質問を理解し、あらかじめ決められた形式に変換して対象のサービスに送ります。その命令や質問を処理したサービスは、テキストなどの形式の応答を音声アシスタントに返します。アマゾンの音声アシスタントはAlexa、グーグルはGoogle Assistantと呼ばれています。アップルのSiriはお馴染みです。
ユーザーの音声を音声アシスタントに届けたり、サービスからの応答を再生してユーザーに伝えるには、インターネットに接続されたマイクとスピーカーがあればよく、スマートフォンでも、あるいは自動車の車内にそれらが装備されていてもよいわけです。スマートスピーカーは、音声アシスタントというAIに繋がったスピーカーです。ただしグーグルのHomeは、家族の誰が話しかけているかを、クラウドの音声アシスタントに頼ることなく瞬時に識別するために、「オッケー、グーグル」という呼び出しの音声を学習するAI機能を搭載したようです。
音声アシスタントに5000種類の「一般的な質問」をして、正しく回答できるかというテストを、米国のマーケティング会社ストーン・テンプル(Stone Temple)が3月に実施しています。グーグル、マイクロソフト、アマゾン、そしてアップルのそれぞれの音声アシスタントが、(英語の)質問を理解して答えることができた割合と、その答えが完全に正しかった割合は、Google Assistantが68.1%と90.6%(61.7%)、マイクロソフトのCortanaが56.5%と81.9%(46.3%)、Alexaは20.7%と87.0%(18.0%)、Siriが21.7%と62.2%(13.5%)という結果になりました。括弧内は最終的に正しい答えを返した割合ですが、今のところSiriとAlexaにはちょっとイラつきそうです。