2024年12月22日(日)

イノベーションの風を読む

2017年12月27日

アシスタントには限界がある

 例として、テレビの操作を考えてみます。スマートホームで、音声アシスタントとの会話で可能になることは、せいぜい、電源のオン/オフやチャンネルの切り替え、そしてボリュームのアップ/ダウンといった程度のことでしょう。

 しかし、それがあまり快適でないことは、ちょっと想像してみれば解ると思います。ボリュームは実際の音を確認しながらアップ/ダウンして調整したいでしょうし、なんとなくチャンネルをブラウズすることもあると思います。それらの操作には、「音声アシスタントとの会話」というユーザーインターフェースは適しません。リモコンで操作する方が、よほど簡単で快適です。

 スマートホームの(スマートな)テレビと会話できると言われたら、「明日の卒業を録画して」とか「ニュース番組に変えて」とか「今夜のおすすめのドラマは?」とか、そんな指示や質問をすることを思い浮かべるのではないでしょうか。

 例えば、「明日の『卒業』を録画して」という指示に対して、音声アシスタントは、「おめでとうございます、明日が良い思い出となるといいですね」とか「撮影の出張サービスを検索しました」などと、トンチンカンな応答をするかもしれません。「卒業」を映画(番組)ではなく、実際のイベントとして認識してしまった結果です。

 音声アシスタントにそのような誤解を与えないためには、指示するときに「テレビで」とか「番組」とかのキーワードを含めるなど、ユーザーが話し方を「学習」しなければなりません。

 音声アシスタントはユーザーの指示に合致するAPIを選択し、それに「明日の」とか「卒業」とかの情報(パラメータ)を渡します。「録画予約」というAPIが用意されていなかったり、他のパラメータ、例えば日時とチャンネル番号が必要だったりすると、音声アシスタントは「すみません、それはできません」と応答することになります。

 家電と一括りに言っても、テレビと掃除機ではまったく機能が異なります。それぞれの機器の機能に対応して行くと、APIが非常に複雑になってしまいます。さらに、同じ機器でもメーカー毎、機種毎に異なる仕様に細かく対応することは不可能です。

 機械学習の技術の向上によって、音声をテキストに変換する音声認識の精度は実用レベルになり、そのテキストの意味を解析する自然言語処理も、長文を要約したり、他言語に翻訳したり、質問に答えたり、会話をするといった応用が進んでいます。

 テキストの意味が何らかの「指示」だった場合は、その指示に応えるための「行動」を選択する必要があります。しかし、音声アシスタントでの自然言語処理には、APIによって限られた「行動」しか選ぶことができないという限界があります。


新着記事

»もっと見る