生成AIに対する逆風と著作権の問題
とはいえ生成AIの学習データは、そもそもプログラマーや作家等を含むクリエイターの人たちが生み出したものです。そのため、生成AIをめぐって反発の動きが広まっています。本コラム(第2回)でも触れたように脚本家は、一時期ストライキを行いました(*3)。
GitHubのユーザは、GitHub Copilotにより自分たちのコードが不当に利用されているとして、GitHubやその親会社のマイクロソフト、開発にたずさわったOpenAIに対して集団訴訟を行いました。
作者名の帰属表示がされていないことなどを挙げ、自分たちが書いたコードを学習しているにもかかわらず、GitHub Copilot自体がプログラムを生成しているかのようにみえることを問題視しました。
また画像生成AIについては、Stable Diffusionの開発企業Stability AIや、アートのオンラインコミュニティを運営するDevianArt、Midjourneyの開発企業Midjourneyは、アーティストから集団訴訟を受けたり、画像提供サイトを運営するGetty Imagesに訴えられたりしています。
テキスト生成AIについては、ニューヨーク・タイムズが自社の記事を機械学習のデータに使われたとしてOpenAIとマイクロソフトに訴訟を起こしました。主に高いコストをかけて取材して執筆・校閲した記事をタダで使っていることに対して抗議しています。
生成AIに対する逆風が吹き荒れています。
知的財産のなかでは特に著作権が議論の的になっており、機械学習の段階と、利用の段階にわけて議論されています。
機械学習の段階については、国内外の著作権法では、AIの学習データとして著作物を読み込むことは可としていることが多いといえます。けれどもネット上にあるコンテンツを収集すると、海賊版等の著作権上の問題のある違法コンテンツまで収集してしまい、それをもとに生成AIをつくることがあります。
またクリエイターからすると、自分たちの作品が勝手に学習に使われることに対して大きな根強い抵抗感があります。せめて自分の作品を学習データに使ってほしくない人には拒否できるようにすべきでしょう。
利用の段階では、生成AIを使ってコンテンツを作ったら別の人の著作物とあまりにも似てしまって、知らないうちに権利侵害を起こしてしまうことがあります。
著作物の類似性があるとするなら、依拠性があるかどうかが著作権侵害の有無を判断するうえでポイントになります。
AIの内部では学習データそのものではなくそこから特徴量をつかんだパラメータに変換されているとはいえ、対象となる著作物が学習データに含まれているなら依拠性がないとはいい切れないのではないかと思います。
*3 鈴木聖子(2023)「AIに〝役〟を奪われる」『ITmedia』(2024年5月31日アクセス)