主要な書籍出版社であるハシェット・ブック・グループとセングエージ・グループは、木曜日に、Googleに対して昨年提起された既存の集団訴訟に介入する申し立てを行った。この訴訟は、Googleが「歴史的な著作権侵害」を行い、Geminiプラットフォームを構築したと非難している。 カリフォルニア連邦裁判所に提出された訴状によると、Googleは「適切なライセンスを取得する代わりに、原告およびクラスのコンテンツを大量に盗用し、AIモデルの訓練に使用した」とされており、開発の「あらゆる段階」で意図的に侵害行為を行ったとされている。 この統合された訴訟は、2023年に個々の著者によって提起された著作権クラスアクションとして始まり、Googleが書籍をコピーして生成AIモデルを訓練したと非難している。 出版社は、Googleが海賊サイトから書籍をダウンロードし、その後繰り返しコピーしてAI訓練のために使用したと主張している。最初はコンピュータのメモリに、次にAIシステムが読める形式に、そして新しいモデルバージョンごとに訓練セットに再度コピーされた。
GoogleのC4訓練データセットには、Z-Libraryから抽出された著作権作品が含まれており、これは当局が350以上のウェブサイトとドメインを押収した海賊コレクションであると訴状は述べている。 出版社は、書籍がb-ok.orgというZ-Libraryのドメインからコピーされ、そのドメインは現在連邦の押収通知を表示していることや、OceanofPDFやWeLibといった「もう一つの繁盛サイトで、無許可の著作権コンテンツの宝庫にアクセスできる」と指摘している。 訴状によると、C4データセットには、米国政府が海賊と偽造品の市場と認定した少なくとも28のサイトからの作品が含まれている。
「著作権記号(©)はC4データセット内で2億回以上出現している」と訴状は記し、Googleが「ポリシー通知」や「利用規約」の警告を除外し、「著作権作品、海賊版作品、ペイウォールの背後から取得した作品など、膨大なカテゴリーの著作権作品を含めている」と指摘している。 出版社は、GoogleがScribd.comのようなサブスクリプション型ライブラリから作品をコピーし、正当なライセンス契約を回避していると主張している。 この行為について問いただした際、非営利のデータセット提供者であるCommon Crawlは、「被害者を責める態度で応じ、『インターネットにコンテンツを置かなければよかった』と宣言した」とされている。 訴訟は、Geminiが現在、「著作権作品の代替品」を生成していると主張しており、これには逐語的な複製、詳細な要約、そして「オリジナル作品の創造的要素をコピーした模倣品」が含まれる。 _Decrypt_はGoogleおよび出版社の弁護士に連絡を取った。 AIと出版社 Googleは同時に、Penske Media CorporationのAI Overviews機能に対する独占禁止法違反の訴訟に対しても弁護しており、同社はAI生成の要約を表示することは「合法的な製品改善であり、反競争的行為ではない」と主張している。 出版社は、法定損害賠償、さらなる侵害を停止する差止命令、そしてGoogleに対し、無許可の作品のすべてを破棄し、Geminiの訓練に使用された書籍を開示するよう求める判決を求めている。 介入の申し立ては、2023年に著者たちがAI企業を相手取って提起した一連の著作権訴訟に続くものであり、連邦裁判官はMetaやAnthropicに対して、著作権で保護された書籍を訓練に使用したことはフェアユースに該当すると部分的に認めた一方、海賊版書籍の恒久的なライブラリを維持している点を批判した。