Adobe 面臨法律挑戰,因未經授權在 AI 模型開發中使用作者作品

robot
摘要生成中

Adobe積極擴展人工智慧領域,但正面臨重大法律挫折。該公司被指控將盜版文學資料納入其機器學習基礎設施——此舉引發了一場以版權侵權為中心的集體訴訟。

核心指控

來自俄勒岡的作家Elizabeth Lyon提起了一項擬議的集體訴訟,聲稱Adobe在為其專為行動文件處理應用設計的語言模型SlimLM進行訓練時,未經授權使用了包括她自己著作在內的書籍副本。根據法院文件,這些文學作品在未經作者同意或補償的情況下被納入。

盜版書籍如何進入Adobe的系統

這一涉嫌濫用的路徑可追溯到Cerebras於2023年中釋出的公共數據集SlimPajama-627B。Adobe依賴此數據集來預訓練SlimLM。然而,訴訟揭示了一個有問題的鏈條:SlimPajama本身是由RedPajama衍生而來,並加入了Books3——一個包含191,000部已出版作品的龐大資料庫。

關鍵問題在於:Books3據稱包含未經適當授權收集的受版權保護材料。當Adobe在此受損基礎上進行構建時,該公司據稱繼承了這些版權侵權行為。正如Lyon的法律團隊所指出,SlimLM已成為一個包含未經授權文學內容的衍生作品。

行業內的模式逐漸浮現

Adobe並非首個面臨此類指控的科技公司。推動現代AI系統的底層數據集已成為版權爭議的雷區:

  • Apple Intelligence Model:九月,Apple被控在未向權利人支付報酬的情況下,將RedPajama來源的資料用於訓練其AI系統
  • Salesforce的訓練做法:十月,對Salesforce的類似訴訟指出該公司不當使用RedPajama數據集
  • Anthropic的和解:最引人注目的是,Anthropic在九月與作家達成15億美元的和解,承認其在Claude的訓練流程中納入了盜版作品

為何這很重要

AI模型的普及需要大量的文本資料。當開發者從Books3或RedPajama等資料集來源,卻未徹底審查其法律來源時,便會產生制度性風險。這些反覆的訴訟顯示,依賴這些資料集——無論多方便——如今都帶來重大的法律風險。

對於Adobe及類似公司來說,這個訊息已變得無法忽視:在訓練資料來源上偷工減料,可能比合法授權的成本還要高得多。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)