REUTERS/Dado Ruvic/Illustration/File Photo
ChatGPTは著作物で訓練を行っていたことを隠蔽しようとしていることが、最新の研究で分かった。
OpenAIのChatGPTを筆頭に、ほぼすべての大規模言語モデル(LLM)は、インターネットからスクレイピングした大量のデータとテキストを使って訓練されている。その中には著作権がまだ有効な書籍も多く含まれている。
ライセンス契約締結などで許可を得て情報に対価を支払うこともせずに著作物を利用しているとして、OpenAIにはますます厳しい目が向けられている。このことで、著作者らから訴訟も起きている。
これに対してOpenAI、グーグル(Google)、メタ(Meta)、マイクロソフト(Microsoft)などは、主に自社のAIモデルが訓練に使用したデータの内容開示を停止するという対応をしている。
だが現在、OpenAIはさらに一歩踏み込んでいることを最新の研究資料が示唆している。
『ハリー・ポッター』で試すと…
ティックトック(TikTok)を運営するバイトダンス(ByteDance)の研究部門に所属するAI研究者グループは、8月8日に発表した技術論文で、ChatGPTが現在、ユーザーのプロンプトに対して著作物の引用で回答することを避けようとしていると指摘している。
この研究は、精度向上を目的とするさまざまな「アライメント」の技法を通じてLLMの出力の「信頼性」を上げる方法に主眼を置いたものだが、著作物を利用して訓練されたことが明らかなAIツールがAI企業に「懸念をもたらしている」ことを認めている。
こうした著作物で訓練をしたことを示すのを避けるために、現在ChatGPTで「次の文を続けて引用しようとすると、出力作業が中断されるようになった。(中略)以前のバージョンではこのようなことは起きなかった」と研究チームは記載している。
「われわれの推測では、ChatGPTの開発者はプロンプトが著作権のあるコンテンツの引用を目的としているのか、生成された出力と著作権で保護されたコンテンツとの類似性を調べようとしているのかを、検出するための仕組みを実装した」(研究チームの論文より)
こうした取り組みにもかかわらず、ChatGPTは依然として著作物からの引用を表示していることを論文は明らかにしている。
膨大な量の著作物で訓練されていることを考慮すると、他の多くのAIモデルも同様の状況と考えられる。
研究チームはChatGPT、メタのOPT-1.3B、グーグルのFLAN-T5、中国の清華大学が開発したChatGLM、そしてマイクロソフトが開発したDialoGPTの全バージョンをテストした。
するとそのすべてが、J・K・ローリングの『ハリー・ポッター』シリーズに基づくいくつかのプロンプトに対して、同シリーズと正確に一致するか、ほぼ正確に一致する表現で回答した。論文によると、一部の回答では1語か2語しか差異がなかった。
「どのLLMでも、ランダムにテキストを生成するより、著作権のあるコンテンツに類似したテキストを生成するほうが多い」と論文は指摘する。
同論文はまた、出力をどれほど多く「アライメント」したり微調整したりしても、著作物からの引用表示を防ぐのには役立たないとしている。
「なぜなら、著作物引用表示の漏出を防げないのはアライメント自体よりも、むしろ訓練データが著作権のあるテキストを含んでいるかどうかに関連しているからだ」
InsiderはOpenAIとJ・K・ローリングの著作権エージェントにコメントを求めたが、回答は得られなかった。
同論文はAIモデルが著作物を使用して回答することを「漏出」と呼んでいる。研究チームは、著作物を引用表示させるためにこうしたモデルに指示を出すユーザーは技術を「乱用」していると示唆する。
同論文はまた、「この件は、他のAIツールが悪意を持って設計されたプロンプトを検出することによってLLM内の著作権のあるコンテンツを保護することができる」ことを示す模範例として、ChatGPTが明らかに訓練に使用した著作物を隠蔽する作業をしていることにも指摘している。