熾烈な国際競争
日本勢はどこまで戦えるか?
その可能性に魅かれ、世界では大規模言語モデルの開発競争が行われている。だが前出のグーグルやオープンAIのほか、マイクロソフトやメタなど米国勢が性能面で圧倒的である。日本にとって障壁となり得るのが、米国の大規模言語モデルは主に英語の文章から学習している点だ。前出の牛久研究員は「学習した文章の中に日本語も混ざっているため、これらが日本で使えないわけではない。だが日本語の学習量は少ないため、英語ほど望む性能は得られないだろう」と語る。
そこで重要になるのが、「日本語大規模言語モデル」(以下、日本語モデル)の開発である。だが大規模言語モデルの開発には、用意した学習用文章から適さないものを除外する「洗浄」の手間と、文章を学習させるための非常に高性能なコンピューターが必要になり、コストは天井知らずだ。その上、「英語に比べ日本語の文章データ量は圧倒的に少なく、文字体系が3種類あるなど技術的なハードルも高い。仮に米国並みの資金力があったとしても、日本語モデルの開発は不利にならざるを得ない」と、科学技術振興機構アドバイザーを務めた花水木法律事務所(大阪市)の小林正啓弁護士は指摘する。
ただ開発環境としての日本のポテンシャルは高く、前出の柿沼弁護士は「日本は機械学習のための著作物利用を諸外国と比較して広い範囲で認めており、世界でも稀有な『機械学習パラダイス』ともいわれている」と語る。
その中で、日本語モデルのトップランナーであるのが、LINEが開発中の「HyperCLOVA」(ハイパークローバ)だ。同社NLP開発チームの佐藤敏紀マネージャーは「数年以内に違和感のない日本語を出力する日本語モデルを開発し、LINEのサービスにも実装していきたい。メールの案文など、文章が絡む領域がそのまま活用の幅になる」と展望を語る。
デジタルトランスフォーメーション(DX)に焦点を当て日本語モデルの開発を進めているのが、東大発スタートアップのイライザ(東京都文京区)だ。同社の日本語モデル「イライザブレイン」の事前学習させた文章量は、米国勢やLINEには及ばない。だが、同社の曽根岡侑也最高経営責任者(CEO)は「DXなどで活用するのならば必要なのは事前学習の量より精度だ。量が多ければ汎用性は上がるが、その分、サーバー使用料など運用コストも上がり、導入の敷居が高くなってしまう」とその意義を語る。同社は現在、損保ジャパンのコールセンター業務や、マイナビの企業紹介原稿の執筆業務で、日本語モデル導入の実証実験を行っている。
マイクロソフトからスピンアウトしたrinna(りんな、東京都渋谷区)は、開発した日本語モデルをチャットボットなどの自社サービスに導入するだけでなく、一般公開もしている。日本語モデル開発の弱みとして、研究者層の薄さを挙げる声は多い。同社の沢田慶リサーチ・データマネージャーは「学会発表でrinnaの日本語モデルを使う例が増えつつある」とし、「現在のAI研究の主流は、大規模言語モデルやその応用になっている」と語る。
松尾教授は「米国では巨大IT企業などが莫大なリソースをつぎこんで研究開発に挑み、日本勢とは比較にならない性能に達している。彼らが日本語モデル開発を本気で始めれば太刀打ちできない。これまで検索エンジンなどで繰り返されてきたように、プラットフォーマーに関連産業を独占されるだろう。産業界は危機感を持つべきだ」と警鐘を鳴らす。
あらゆる分野で大規模言語モデルが活用されることを見据え、これを「基盤モデル」と呼ぶ動きも広がっている。前出の栗原教授は「社会の基盤となるものが海外頼りでいいのか。経済安全保障の観点からも、国産の大規模言語モデルの開発を急ぐべきだ」と語る。日本はこの競争にどこまで食い下がれるのか、岐路に立っている。
便利で安価な暮らしを求め続ける日本――。これは農業も例外ではない。大量生産・大量消費モデルに支えられ、食べ物はまるで工業製品と化した。このままでは食の均質化はますます進み、価値あるものを生み出す人を〝食べ支える〟ことは困難になる。しかし、農業が持つ新しい価値を生み出そうと奮闘する人は、企業は、確かに存在する。日本の農業をさらに発展させるためには、農業の「多様性」が必要だ。