ChatGPTを使う前に知っておくべき「何を学習しているか」　Wedge ONLINE(ウェッジ・オンライン)

　万能の人工知能と称賛するような記事も度々見かける対話型AIサービス「ChatGPT」は、2022年11月30日にOpenAI社から発表されてからまだ８カ月だ。サム・アルトマン最高経営責任者（CEO）は、今年４以降、日本をはじめフランス、英国、ドイツ、欧州連合（EU）、インド、韓国などを次々と訪問し、各国の首脳と面会して自社の技術をアピールするとともに、各国で議論されているAIを規制しようとする動きを牽制している。

（NicoElNino/gettyimages）

ギャラリーページへ

　すでに、EUではAIを包括的に規制するAI法修正案が５月14日に可決している。この修正案には、ChatGPTなどを含む生成AIサービスを提供する企業にAIの学習に使用する著作物の開示を求めることなどが盛り込まれている。

　アルトマン氏は「EUの規制は厳し過ぎる」として、事業撤退も視野に入れているようだ。一方、日本へは４月以降に２度も訪問しており、ChatGPTの活用を推奨する企業経営者や政府関係者も多く、またAIへの規制が緩い日本市場を重視しているようだ。

AIは食べたものによって決まる

　GPT（Generative Pre-trained Transformer technology）とは、文字通り、生成型事前学習済みテクノロジーを指す。GPTは、「Generative（生成型）」の「Pre-trained（事前学習）」させた「Transformer（変換装置）」が、チャット（会話）形式で利用できるようにしたものだ。

　そもそもAIの優劣は「事前の学習」で決まるところが大きい。事前学習のためにどんなデータセットを学習に使用したかが重要だ。

　試しにChatGPTに「ChatGPTのAI学習用データセットについて具体的な名前を教えて下さい」と入力すると、ChatGPTは「私は具体的な学習用データセットの名前を知りません。OpenAIはGPT-3およびその他の言語モデルの学習に広範なデータを使用しています。このデータは、インターネット上の多様なウェブページ、書籍、ウィキペディア、ニュース記事などから収集されました。具体的なデータセットの内部の詳細や名前については公開されていません」と応える仕様になっている。

　AIの信頼性や安全性を確保するためには学習用データに何を使用しているのかを明らかにすることは、とても大切なことだが、ChatGPTは使用している学習用データセットを秘密にしている。OpenAI社は、とてもオープンな会社とはいえないのだ。

事前学習に使用されるデータセット

　AIの事前学習に使用されるデータセットは、「MNIST(エムニスト)」「MegaFace（メガフェイス）」「Common Crawl(コモン・クロール)」などが有名だ。

　エムニスト・データベースは、画像処理システムの学習用に使用されるデータセットで、大規模な手書き数字を集めたデータベースだ。エムニスト・データベースには、６万個の学習用画像が含まれており、このデータベースを使って学習させればエラー率0.8%で数字を正しく読むことができる。

　メガフェイスは、顔認識（face recognition）に使用されるAIの学習用データセットで、67万2057人の475万3320もの顔面写真が含まれている。

ChatGPTを使う前に知っておくべき「何を学習しているか」

AIは食べたものによって決まる

事前学習に使用されるデータセット

新着記事

特集