ChatGPTを使う前に知っておくべき「何を学習しているか」　Wedge ONLINE(ウェッジ・オンライン)

　ChatGPTは、対話型AIなのでコモン・クロールなどのテキストデータをデータベース化したものが使用されている。AIの世界的専門家として知られているアラン D.トンプソン博士（人口の上位２％の知能指数（IQ）を有する者の交流団体であるメンサインターナショナルの元会長）が、学習用データセットについて明らかにしている。

　彼の分析では、OpenAI GPT-3モデルの場合は、コモン・クロールが60％、WebTex2が20％、Books1とBooks2が15％、Wikipediaが5％の割合で、学習用データセットとして主に使用されているようだ。

What’s in my AI?

ギャラリーページへ

ChatGPTは何を学習しているのか

　コモン・クロール社は非営利の団体で、12年から世界中のインターネット上にあるウェブサーバーを手当たり次第にアクセスし、Webのページデータ（HTMLドキュメント）をデータベース化して、誰でもが自由に使えるようにしている。

　「知識のタイムカプセル」あるいは「公共の図書館」としての役割を果たすコモン・クロールは、毎月、インターネット全体をスキャンして記録しているが、全世界には13億以上のドメインがあり、ドメイン名とIPアドレスが紐つけされているドメインは３億程度といわれており、コモン・クロールは、その内のおよそ10％程度にアクセスしているに過ぎない。インターネット全体をカバーしているとは言い難いのが実情だ。

　WebTex２は、米国で人気があるレディット（Reddit）の投稿をデータベース化したものだ。レディットは、投稿型ソーシャルサイトで、日本でかつて問題にされた「２ちゃんねる」のようなものである。

　２ちゃんねるでいうところの「板」に当たるのが「サブレディット」で、うろ覚えの映画のタイトルやテレビゲームの名前などを投稿すると、その投稿を手がかりに大勢の人が答えを探してくれるサブレディットや、歴史についてわからない時に、簡単に要約した解説をしてくれるサブレディットなどがある。

　ChatGPTは、このWebTex2のデータセットが大変気に入っているようで、ChatGPTのニューラルネットワークへの入力値として、５倍もの重み付けをしている。なぜ５倍もの重み付けをしているのかについて説明することは、学習用データセットに何を使用しているのかを開示する必要性と同様にAIの透明性を確保する上で重要なことだ。

　Books1とBooks2は、オンラインで入手可能な無料電子書籍をデータベース化したもので、およそ１万1000冊の書籍の全文が含まれているが、約10万冊もの電子書籍を毎日無料で閲覧可能としているスマッシュワード（SmashWord ）で入手可能な書籍全体の２％に過ぎないともいわれている。また、選択された本のかなりの部分が重複もしくは三重に選択されていることもわかっている。

　したがって、固有の書籍の総数は、わずか7200冊だととの分析もある。こうした調査結果から、学習用データセットに使用されている書籍の数は、これまでに出版された全書籍の0.1％未満ではないかと推測されている。また、ジャンルもロマンスとファンタジーに偏っているほか、宗教表現は、なぜかイスラム教に大きく偏っているとされる。

ChatGPTを使う前に知っておくべき「何を学習しているか」

ChatGPTは何を学習しているのか

新着記事

特集