返回
頂部
我們已發(fā)送驗證鏈接到您的郵箱,請查收并驗證
沒收到驗證郵件?請確認郵箱是否正確或 重新發(fā)送郵件
確定

美國法院首次做出人工智能訓練行為構(gòu)成合理使用的判決

行業(yè)
納暮2025-07-04
美國法院首次做出人工智能訓練行為構(gòu)成合理使用的判決

#本文僅代表作者觀點,不代表IPRdaily立場,未經(jīng)作者許可,禁止轉(zhuǎn)載#


“美國加州法院裁定:使用版權(quán)內(nèi)容訓練AI屬合法行為?!?br>


4.1


案件概述


一家位于美國加利福尼亞州北區(qū)的人工智能企業(yè)Anthropic,從互聯(lián)網(wǎng)上的非法網(wǎng)站上下載了大量受著作權(quán)保護的盜版電子書籍。此外,該企業(yè)還購買了一些受著作權(quán)保護的書籍(其中一些與非法網(wǎng)站上的書籍重疊),拆除了書籍的裝訂,對每一頁進行了掃描,并將其轉(zhuǎn)換為可檢索的數(shù)字化格式。這些行為均旨在建立一個包含“世界上所有書籍”的中央圖書館,以實現(xiàn)“永久保存”的目標。Anthropic從這個中央圖書館挑選出不同數(shù)據(jù)集合,用于訓練其正在開發(fā)的LLMs(Claude),為人工智能服務(wù)提供動力。然而,一些書籍的作者,作為原告,對該公司提起了侵權(quán)訴訟。本次簡易判決的爭議焦點在于,根據(jù)《著作權(quán)法》第107條,涉案作品的使用在多大程度上可以被視為“合理使用”。


案件基本背景


被告Anthropic為一家人工智能公司,由前OpenAI員工于2021年1月成立。該公司推出的核心產(chǎn)品是一款名為“Claude”的人工智能軟件服務(wù)。用戶向Claude輸入文本提示后,該軟件能夠迅速以文字形式作出回應(yīng),展現(xiàn)出類似人類的閱讀和書寫能力。Claude之所以具備此能力,是因為Anthropic利用其構(gòu)建研究圖書館中的書籍及其他文本資料對Claude進行了訓練。

原告Andrea Bartz、Charles Graeber以及Kirk Wallace Johnson均為Anthropic公司未經(jīng)許可擅自復制其著作的作者。本案涉及作家Bartz所著的四部小說,分別為《The Lost Night: A Novel》、《The Herd》、《We Were Never Here》以及《The Spare Room》,Graeber所撰寫的兩部非小說類作品,即《The Good Nurse: A True Story of Medicine, Madness, and Murder》和《The Breakthrough: Immunotherapy and the Race to Cure Cancer》,以及Johnson所著的三部非小說類作品《To Be A Friend Is Fatal: The Fight to Save the Iraqis America Left Behind》、《The Feather Thief: Beauty, Obsession, and the Natural History Heist of the Century》以及《The Fishermen and the Dragon: Fear, Greed, and a Fight for Justice on the Gulf Coast》。

2021年1月或2月開始,Anthropic從線上的在線圖書館下載了多本盜版書籍。據(jù)統(tǒng)計,Anthropic非法復制了超過700萬冊圖書,其中包括原告作者們至少兩部作品的副本。不過,后期出于法律方面的考量,Anthropic開始減少對盜版書籍的依賴,并開創(chuàng)出一條獲取圖書資源的新渠道,即投入數(shù)百萬美元購買了數(shù)百萬本印刷書籍,并將這些書籍掃描為數(shù)字形式(丟棄紙質(zhì)書稿),包含掃描頁面的圖像和機器可讀文本。通過上述收集資源的方式,Anthropic 構(gòu)建了一個“研究圖書館”(research library)或“通用數(shù)據(jù)區(qū)”(generalized data area),并計劃“永久保存所有內(nèi)容”“即便這些書籍不用于訓練語言模型”。

被選中用于訓練LLMs的作品主要通過四種方式被復制:從研究圖書館中復制用以創(chuàng)建訓練集、以清理重復或價值低內(nèi)容為目的的復制、標記化(tokenized)過程中的復制以及模型訓練所引發(fā)模型本身對作品的壓縮復制。值得注意的一點,由于最終的人工智能服務(wù)由LLM和附加軟件結(jié)合提供,該項服務(wù)本身(也即Claude)并不會直接向公眾輸出與原作相同或?qū)嵸|(zhì)性近似的內(nèi)容。


關(guān)鍵時間線


2024年8月,三位作者提起集體訴訟,控告Anthropic侵犯了其著作權(quán),盜版用于其研究圖書館建設(shè)和訓練其LLM。

2024年10月,日程安排令要求在2025年3月6日之前提出任何集體動議。作者迅速對訴狀進行了修改,將相關(guān)聯(lián)的公司實體列為原告。

Anthropic公司并未依照先前的計劃選擇提出駁回起訴的動議,而是允許在集體訴訟認證之前,提前就合理使用問題進行簡易判決。(目前,Anthropic公司僅就合理使用原則提出了簡易判決動議,為了獲得簡易判決,Anthropic公司必須基于無可爭議的事實和/或有利于合理使用的事實推論承擔舉證責任。)這是本案首份實質(zhì)性裁決。同期提出的集體訴訟認證動議仍待審理。


分析


(一)法律基礎(chǔ)


美國《著作權(quán)法》第107條關(guān)于合理使用構(gòu)成的四項要素:

對受著作權(quán)保護作品的合理使用……出于諸如批評、評論、新聞報道、教學(包括課堂使用的多份復制)、學術(shù)或研究等目的,不構(gòu)成著作權(quán)侵權(quán)。在具體個案中判斷對作品的使用是否屬于合理使用時,應(yīng)考慮的因素應(yīng)包括:

(1) 使用的目的和性質(zhì),包括該使用行為是否具有商業(yè)性質(zhì)或為非營利教育目的;
(2) 受著作權(quán)保護作品的性質(zhì);
(3) 所使用部分的數(shù)量和實質(zhì)性內(nèi)容與整個受著作權(quán)保護作品的關(guān)系;
(4) 該使用行為對受著作權(quán)保護作品的潛在市場或價值所產(chǎn)生的影響。


(二)四要素分析

依據(jù)在先判例,法院需首先判定某件受著作權(quán)保護的作品是否“被以多種方式使用”,然后逐一評估每種使用方式是否構(gòu)成合理使用。因此本案將涉案使用行為拆解為訓練時的復制行為、依據(jù)合法圖書或網(wǎng)絡(luò)盜版資源而建立研究圖書館的復制行為三類,并分別分析了各項使用行為是否符合合理使用的四大要素。

1. 使用目的和性質(zhì)

(1)訓練時的復制行為

Anthropic公司通過復制作者受著作權(quán)保護的作品,迭代映射每個文本片段與文本片段序列之間的統(tǒng)計關(guān)系,使得訓練完成的LLM在接收新文本輸入時,能像人類閱讀提示并撰寫回復那樣生成新文本輸出。無論這些LLM是否壓縮復制了這些內(nèi)容,將作品用于訓練LLM的“目的與性質(zhì)”具有變革性——且程度堪稱驚人。

首先,原告無權(quán)禁止他人將其作品用于訓練或?qū)W習本身。其次,Anthropic公司的大型語言模型并未向公眾復制特定作品的創(chuàng)造性元素,甚至沒有復制某位作者可辨識的表達風格(假設(shè)這些內(nèi)容可受著作權(quán)保護),而只是輸出了語法、結(jié)構(gòu)和文風。這并不屬于著作權(quán)法保護的內(nèi)容。最后,原告所援引的“湯森路透訴人工智能數(shù)據(jù)訓練著作權(quán)侵權(quán)案”與本案事實不符,本案的用途與著作權(quán)所有者有權(quán)控制的任何內(nèi)容保持了足夠的“獨立性”。

因此,第一要素支持訓練復制行為構(gòu)成合理使用。

(2)建立研究圖書館的復制行為

① 依據(jù)合法圖書的數(shù)字化復制行為

Anthropic公司購買了數(shù)百萬冊印刷版書籍以“建立研究圖書”。該公司在將每本印刷版替換為數(shù)字副本(僅供內(nèi)部圖書館使用,不對外共享或銷售)后銷毀了原印刷本。對于這些副本,作者并未指控Anthropic未支付采購費用,僅抗議其將載體形式從印刷版改為數(shù)字版。

法院認為,根據(jù)本案事實,這種載體轉(zhuǎn)換本身并未新增副本數(shù)量,既改善了存儲條件又實現(xiàn)了可檢索性,且未侵害著作權(quán)人的合法權(quán)益——該行為具有轉(zhuǎn)化性。

② 依據(jù)網(wǎng)絡(luò)盜版資源的復制行為

在為其研究圖書館采購書籍前,Anthropic公司下載了超過七百萬冊盜版書籍,未支付任何費用,且即便在決定不再(或永遠不)將這些盜版書籍用于訓練其人工智能后,仍保留這些盜版副本。

法院認為,通過盜版手段建立研究資料庫且拒不支付著作權(quán)費用,同時保留可能具備潛在用途的副本,這種行為本身就構(gòu)成獨立的使用目的——且絕非轉(zhuǎn)化性使用。

2. 受著作權(quán)保護作品的性質(zhì)


第二要素的主要功能在于輔助評估其他要素:揭示爭議作品性質(zhì)與其二次使用性質(zhì)之間的差異(前文所述),以及每部作品被使用部分的數(shù)量/實質(zhì)性程度與二次使用之間的關(guān)聯(lián)(下文將述)。該要素同樣對所有復制行為作出不利于合理使用的判定。

3. 所使用部分的數(shù)量和實質(zhì)性內(nèi)容與整個受著作權(quán)保護作品的關(guān)系

(1)訓練時的復制行為

原告并未指控Claude服務(wù)的輸出內(nèi)容與其作品存在任何可追溯的關(guān)聯(lián)。因此,用于訓練Claude底層大語言模型的復制行為具有特別合理性。首先,各方均認同訓練任何一個大語言模型都需要數(shù)十億詞匯量。既然使用海量作品具有合理必要性,那么實際訓練過程中使用任一作品都具有同等合理性。其次,目前尚未有證據(jù)表明向公眾輸出的內(nèi)容構(gòu)成侵權(quán)。綜上,第三個要素支持認定訓練復制行為屬于合理使用。

(2)建立研究圖書館的復制行為

① 依據(jù)合法圖書的數(shù)字化復制行為

對于Anthropic公司采購并轉(zhuǎn)化為數(shù)字館藏的紙質(zhì)圖書,該公司本就享有保留這些館藏副本的權(quán)利。復制行為的目的在于優(yōu)化館藏存儲條件并提升檢索功能,而完整復制作品內(nèi)容恰恰符合這一目的要求。該過程不存在超額復制行為,且原始復制件已被銷毀。

② 依據(jù)網(wǎng)絡(luò)盜版資源的復制行為

考慮到“盡可能獲取所有書籍以備大語言模型訓練或其他用途”這一目的,幾乎任何未經(jīng)授權(quán)的復制行為都屬過度。

4. 對受著作權(quán)保護作品的潛在市場或價值所產(chǎn)生的影響

(1)訓練時的復制行為

用于訓練特定大語言模型的復制件過去沒有、將來也不會取代對作者作品復制件的需求,或者說不會以《著作權(quán)法》所認定的方式產(chǎn)生影響。雖然作者方主張,訓練大語言模型將導致與其作品形成競爭關(guān)系的作品激增,但作者方的訴請與聲稱“培養(yǎng)學童寫作能力將導致競爭作品激增”并無二致。這并非《著作權(quán)法》所關(guān)注的那類競爭性或創(chuàng)造性替代。以及,作者方繼而主張,訓練大語言模型已(或?qū)ⅲD占一個新興市場——即授權(quán)其作品專門用于大語言模型訓練的市場,但《著作權(quán)法》并未賦予作者方開發(fā)此類用途市場的權(quán)利。

(2)建立研究圖書館的復制行為

① 依據(jù)合法圖書的數(shù)字化復制行為

對于這些副本,本裁決假設(shè)Anthropic公司將印刷版轉(zhuǎn)為數(shù)字版的行為,替代了其本應(yīng)向作者直接采購新數(shù)字副本的交易(若非其能夠購買二手印刷版)。但根據(jù)第一要素所述理由,此類損失并不涉及《著作權(quán)法》為作者保留的專有權(quán)利。這僅是格式轉(zhuǎn)換行為,并未剝奪作者的法定權(quán)益。

② 依據(jù)網(wǎng)絡(luò)盜版資源的復制行為

Anthropic在這些問題上幾乎沒有反駁余地。首先,Anthropic辯稱Claude的服務(wù)并未通過替代原告作品傳統(tǒng)市場[或篡奪]來降低其價值。但竊取作者作品的盜版顯然造成了這種影響。其次,Anthropic聲稱或許能在公開市場購買部分書籍(及其他文本),但無法購得它復制的其他文本。但本案并不涉及那些它無法購買的文本——它本可以購買原告的著作(以及許多其他作品),事實上它后來也確實購買了。最后,Anthropic主張放棄購買單本書籍對這些文本的影響微乎其微。但若將此類行為寬恕為合理使用可能導致,只要聲稱出于轉(zhuǎn)化性使用目的(如撰寫書評摘錄、訓練大語言模型等)使用作品,就可以竊取本可購買的作品而無需擔責。


總結(jié)


本裁決認定Anthropic公司的訓練使用行為構(gòu)成合理使用,并基于不同理由確認印刷轉(zhuǎn)數(shù)字的格式轉(zhuǎn)換屬于合理使用。但否決了Anthropic公司關(guān)于必須將盜版圖書館副本視為訓練副本的簡易判決請求。

法院將就Anthropic創(chuàng)建中央圖書館所使用的盜版副本及其造成的實際損害或法定賠償(包括故意侵權(quán)情形)進行審判。盡管Anthropic后續(xù)購買一本其早前從互聯(lián)網(wǎng)下載的盜版書籍,但這并不能免除其復制行為的法律責任,但可能影響法定賠償金額的判定。對于圖書館復制件或用于非大型語言模型訓練用途的其他復制件所引發(fā)的爭議,其責任歸屬仍存在開放空間。


(原標題:美國法院首次做出人工智能訓練行為構(gòu)成合理使用的判決)


點擊“閱讀原文”,獲取該案完整版


欄目支持,共建合作伙伴持續(xù)招募

來源:國際知識產(chǎn)權(quán)觀察微信平臺

編輯:IPRdaily辛夷          校對:IPRdaily縱橫君


注:原文鏈接盤點:2025年上半年多領(lǐng)域名企知識產(chǎn)權(quán)訴訟梳理!點擊標題查看原文)


今日報名截止!尋找2024年“40位40歲以下企業(yè)知識產(chǎn)權(quán)精英”活動

「關(guān)于IPRdaily」


IPRdaily是全球領(lǐng)先的知識產(chǎn)權(quán)綜合信息服務(wù)提供商,致力于連接全球知識產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權(quán)負責人,還有來自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機構(gòu)的全球近100萬用戶(國內(nèi)70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。


(英文官網(wǎng):iprdaily.com  中文官網(wǎng):iprdaily.cn) 


本文來國際知識產(chǎn)權(quán)觀察微信平臺并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://www.islanderfriend.com”

納暮 注冊用戶
共發(fā)表文章 532
最近文章
新加坡知識產(chǎn)權(quán)周
AD
  AD1
AD
 
焦點追蹤
本文來自于iprdaily,永久保存地址為/news_40073.html,發(fā)布時間為2025-07-04 10:59:20。
我也說兩句
還可以輸入140個字
我要評論
相關(guān)文章