画像生成AIの心臓部
「大規模言語モデル」の威力
では、この画像生成AIはどのような仕組みで画像を出力しているのだろうか。慶応義塾大学の栗原聡教授は「キーワードから画像の全体の構図をつくるAIと、その全体の構図を詳細化して高精細な画像を仕上げるAI、この2つが動いている」とし、「特に重要な前者の『構図をつくるAI』には、『大規模言語モデル』の技術が応用されている」と指摘する。
大規模言語モデルとは、18年に米グーグルがリリースした「BERT」に始まる、最新の〝賢すぎる〟AIである。ニュースやブログなど、インターネット上のありとあらゆる文章をAIに覚えさせ、単語同士の繋がり方の法則性、つまり「文脈」を学習させたものだ。
たとえば「新幹線」という単語の後に続く言葉として、「に」が入るのは何%か、「を」が入るのは何%か、また「に」の後に「乗る」が来るのは何%か、といったように、言葉の繋がりを膨大なデータから確率として学習している。米オープンAIが20年に開発した大規模言語モデル「GPT-3」は45テラバイトの文章を用意し、そこから精錬された570ギガバイトの文章を事前学習したとされ、単純計算すれば後者は英語で約6120億文字だ。その結果、「新幹線に乗る」と「新幹線を乗る」のどちらが言語として自然であるかを導き出すことができる。
これにより、文章の要約や生成など、文章が関連する幅広い分野で大規模言語モデルを活用することができる。米スタンフォード大学の実験では、文章の読解力テストにおいて前述のBERTが人間を上回る成績を収めている。22年11月末には、オープンAIが「GPT-3」を応用して、日本語でも自然な質疑応答が可能な「ChatGPT」を公開し話題となった。
東京大学大学院の松尾豊教授は「文章が介在する領域、つまり産業のほぼ全域で大規模言語モデル活用の余地がある。ホワイトカラーが担う知的労働の相当な部分は、大規模言語モデルで自動化できる可能性がある」と語る。
また前述の栗原教授は「大規模言語モデルには、社会の常識や、『空気』を読むための暗黙知といった知識なども含まれている」とし、その応用先は多岐にわたるだろうと指摘する。冒頭の画像生成AIもその一つだ。
22年8月、米グーグルは同社が開発した大規模言語モデル「PaLM」から派生したAIである「PaLM-SayCan」を、家庭用ロボットに搭載する実験の様子を公開した。研究者から「飲み物をこぼしたから、手伝ってくれる?」と曖昧な指示を受けたロボットは、中身がこぼれて空になった缶を捨て、スポンジを持ってくる、という一連の動作をこなしてみせた。これは大規模言語モデルにより、「文脈」を予測できたからこそである。
オムロンサイニックエックスの小津野将研究員は「これまではプログラミング言語で逐一記述するしかロボットに指示を出す方法がなかった。だが人間の言語で直感的に指示を出せれば、ロボットの汎用性は非常に高まるだろう。プログラミング言語と相性が悪かった、スキルや行動パターンといった曖昧性が残る『経験則』を、ロボット間で言葉によって伝達し共有する、といったことも可能になる」と話す。このまま大規模言語モデルが発展すれば、「感情を持っているとしか思えないようなAIとのやりとりも可能になるだろう」(栗原教授)との見方もある。