日本中文字幕免费_美國爆發(fā)“數據起義”：好萊塢文學(xué)界新聞界和社交媒體反抗AI_博覽

美國爆發(fā)“數據起義”：好萊塢文學(xué)界新聞界和社交媒體反抗AI

陳曉銳發(fā)布時(shí)間：2023-07-19 09:26:00來(lái)源：澎湃新聞

　　·美國圣克拉拉大學(xué)法學(xué)院教授埃里克·戈德曼認為，訴訟浪潮才剛剛開(kāi)始，“第二波和第三波”即將到來(lái)，而這將定義人工智能的未來(lái)。

　　·人工智能公司辯解稱(chēng)，使用受版權保護的作品來(lái)培訓人工智能是合理的——這參考了美國版權法中“轉換性使用”的概念，如果材料以一種“變革性”的方式改變，就會(huì )創(chuàng )造一個(gè)例外。

　　美國正在爆發(fā)一場(chǎng)“數據起義”，好萊塢、藝術(shù)家、作家、社交媒體公司和新聞機構都是反抗者。

　　一切的矛頭都指向ChatGPT和Stable Diffusion等生成式人工智能工具，它們被指在未經(jīng)許可或提供補償的前提下，非法利用內容創(chuàng )作者的作品訓練大型語(yǔ)言模型。

　　這場(chǎng)“數據起義”的核心是一種新的認識，即在線(xiàn)信息——故事、藝術(shù)品、新聞文章、網(wǎng)絡(luò )帖子和照片可能具有重要的未開(kāi)發(fā)價(jià)值。在互聯(lián)網(wǎng)上抓取公開(kāi)內容的做法由來(lái)已久，大多數采取這種做法的公司和非營(yíng)利組織都會(huì )公開(kāi)披露。但在ChatGPT發(fā)布之前，數據所有者對此并不太了解，也不認為這是一個(gè)特別嚴重的問(wèn)題。現在，當公眾了解了更多關(guān)于A(yíng)I訓練的基礎知識后，這種情況發(fā)生了變化。

　　“這是數據價(jià)值的根本性重塑。”Nomic公司的創(chuàng )始人兼首席執行官布蘭登·杜德斯塔特(Brandon Duderstadt)在接受媒體采訪(fǎng)時(shí)說(shuō)，“以前，人們通過(guò)讓所有人都能訪(fǎng)問(wèn)數據并投放廣告來(lái)獲得數據價(jià)值。而現在，人們認為要保護好自己的數據。”

　　浪潮迭起

　　最近幾個(gè)月，Reddit和推特等社交媒體公司、《紐約時(shí)報》和美國全國廣播公司(NBC)等新聞機構、科幻作家保羅·特倫布雷(Paul Tremblay)和女演員莎拉·西爾弗曼(Sarah Silverman)等紛紛發(fā)采取行動(dòng)，反對他們的作品和數據被人工智能擅自收集。這一系列舉動(dòng)被美國媒體稱(chēng)為“數據起義(Data Revolt)”。

　　上周，西爾弗曼向OpenAI和Meta公司提起訴訟，指控他們在訓練數據時(shí)使用其著(zhù)作的盜版內容，因為這兩家公司的聊天機器人可以準確地總結其書(shū)中的內容。此外，包括喬迪·皮科特(Jodi Picoult)、瑪格麗特·阿特伍德(Margaret Atwood)和阮越清(Viet Thanh Nguyen)在內的5000多名作家簽署了一份請愿書(shū)，要求科技公司在使用他們的書(shū)作為訓練數據時(shí)，要征得他們的許可，并給予他們署名和補償。

　　為了保護自己的作品，作家和藝術(shù)家們采取了不同的抗議方式。有的選擇鎖定作品，不讓人工智能獲取；有的選擇抵制發(fā)布人工智能生成內容的網(wǎng)站；有的則選擇編寫(xiě)一些顛覆性的內容，來(lái)干擾人工智能的學(xué)習。

　　7月13日，擁有16萬(wàn)會(huì )員的好萊塢三大工會(huì )之一SAG-AFTRA宣布罷工，在此之前，美國編劇工會(huì )已經(jīng)罷工70多天。《紐約時(shí)報》稱(chēng)，這次大罷工使價(jià)值1340億美元的美國影視業(yè)陷入停頓，SAG-AFTRA工會(huì )要求流媒體巨頭為他們提供更公平的利潤分配和更好的工作條件，并要求制片公司保證不會(huì )以AI和電腦生成面孔和聲音來(lái)替代演員。

　　與此同時(shí)，一些新聞機構也在抵制人工智能。6月，在關(guān)于使用生成型人工智能的內部備忘錄中，《紐約時(shí)報》表示，“人工智能公司應該尊重我們的知識產(chǎn)權。”同月，在代表在線(xiàn)出版商利益的貿易組織Digital Content Next發(fā)布的一份聲明中，《紐約時(shí)報》和《華盛頓郵報》等在線(xiàn)出版商認為，使用受版權保護的新聞文章作為人工智能的訓練數據具有潛在風(fēng)險和法律問(wèn)題，它們呼吁人工智能公司尊重出版商的知識產(chǎn)權和創(chuàng )作勞動(dòng)。

　　社交媒體公司也紛紛表明立場(chǎng)。今年4月，社交新聞網(wǎng)站Reddit表示，它希望對訪(fǎng)問(wèn)其應用程序編程接口(API)的第三方收費。Reddit首席執行官史蒂夫·霍夫曼(Steve Hoffman)表示，他的公司“不需要把所有價(jià)值都免費提供給世界上最大的一些公司。”7月，推特所有者埃隆·馬斯克(Elon Musk)也表示，一些公司和組織“非法”大量抓取推特的數據，為了應對“極端的數據抓取和系統操縱”，推特決定限制個(gè)人賬戶(hù)可以查看的推文數量。

　　這場(chǎng)“數據起義”也包括“訴訟浪潮”，一些人工智能公司由于數據隱私問(wèn)題受到多次起訴。去年11月，一群程序員對微軟和OpenAI發(fā)起集體訴訟，稱(chēng)這兩家公司使用其代碼訓練人工智能編程助手，侵犯了他們的版權。今年6月，總部位于洛杉磯的克拉克森律師事務(wù)所向OpenAI和微軟發(fā)起起訴書(shū)長(cháng)達151頁(yè)的集體訴訟，指出OpenAI如何從未成年人那里收集數據，并稱(chēng)網(wǎng)絡(luò )抓取侵犯了版權法，構成了“盜竊”。此后，該事務(wù)所又對谷歌提起了類(lèi)似的訴訟。

　　美國圣克拉拉大學(xué)法學(xué)院教授埃里克·戈德曼(Eric Goldman)在接受媒體采訪(fǎng)時(shí)說(shuō)，這起訴訟的論點(diǎn)過(guò)于寬泛，不太可能被法院接受。但他認為，訴訟浪潮才剛剛開(kāi)始，“第二波和第三波”即將到來(lái)，而這將定義人工智能的未來(lái)。

　　法律爭議

　　OpenAI的ChatGPT和Dall-E、谷歌的Bard、Stability AI的Stable Diffusion等生成式AI都是基于從互聯(lián)網(wǎng)上抓取的海量新聞文章、書(shū)籍、圖片、視頻和博客文章進(jìn)行訓練的，其中很多公開(kāi)內容都受版權保護。

　　今年3月，OpenAI發(fā)布了一份對該機構主要語(yǔ)言模型的分析報告，顯示訓練數據的文本部分使用了來(lái)自新聞網(wǎng)站、維基百科和一個(gè)盜版書(shū)籍數據庫(LibGen)的數據，目前，該盜版書(shū)籍數據庫已被美國司法部查封。

　　7月13日，美國聯(lián)邦貿易委員會(huì )(FTC)向OpenAI發(fā)送了一份20頁(yè)的文件，要求OpenAI提供有關(guān)其人工智能模型的風(fēng)險管理、數據安全和信息審核的記錄，以調查其是否侵犯了消費者權利。

　　但在公開(kāi)露面和對訴訟的回應中，人工智能公司辯解稱(chēng)，使用受版權保護的作品來(lái)培訓人工智能是合理的——這參考了美國版權法中“轉換性使用”的概念，如果材料以一種“變革性”的方式改變，就會(huì )創(chuàng )造一個(gè)例外。

　　“人工智能模型基本上是在從所有的信息中學(xué)習。這就像一個(gè)學(xué)生在圖書(shū)館讀書(shū)，然后學(xué)習如何寫(xiě)作和閱讀。”谷歌全球事務(wù)總裁肯特·沃克(Kent Walker)在一次采訪(fǎng)中說(shuō)，“與此同時(shí)，你必須確保沒(méi)有復制別人的作品，也沒(méi)有做一些侵犯版權的事情。”

　　谷歌的總法律顧問(wèn)哈利瑪·德萊恩·普拉多(Halimah DeLaine Prado)向媒體表示：“多年來(lái)，所有人都很清楚，我們會(huì )使用來(lái)自公共來(lái)源的數據——比如發(fā)布到開(kāi)放網(wǎng)絡(luò )和公共數據集的信息，來(lái)訓練谷歌翻譯等服務(wù)背后的人工智能模型。”她指出，“美國法律支持利用公共信息來(lái)創(chuàng )造新的有益用途，我們期待著(zhù)駁斥這些毫無(wú)根據的說(shuō)法。”

　　邁阿密大學(xué)研究知識產(chǎn)權法的教授安德烈斯·索維基(Andres Sawicki)在接受采訪(fǎng)時(shí)說(shuō)，有一些可能有利于科技公司的先例，比如1992年美國上訴法院的裁決，允許公司對其他公司的軟件代碼進(jìn)行逆向工程來(lái)設計競爭產(chǎn)品。但許多人表示，對于大型公司利用創(chuàng )造者的工作來(lái)制造新的賺錢(qián)工具，直覺(jué)上這是不公平的。“關(guān)于生成式人工智能的問(wèn)題真的很難給出答案。”他說(shuō)。

　　邁阿密大學(xué)版權法教授杰西卡·D·利特曼·索維基(Jessica D. Litman Sawicki)表示，合理使用原則(Fair use)是對人工智能公司的一種有力辯護，因為人工智能模型的大多數輸出內容并不明確地類(lèi)似于某個(gè)特定人類(lèi)的作品。但她認為，如果起訴人工智能公司的創(chuàng )作者能夠展示足夠多與他們作品非常相似的人工智能輸出的例子，他們就會(huì )有充分的理由認為，他們的版權正在受到侵犯。

　　人工智能公司開(kāi)始應對

　　索維基表示，人工智能公司可以通過(guò)在產(chǎn)品中安裝過(guò)濾器(filters)來(lái)避免這種情況，以確保它們不會(huì )生成任何與現有作品太相似的內容。例如，視頻網(wǎng)站YouTube已經(jīng)使用相關(guān)技術(shù)，檢測并自動(dòng)刪除上傳到其網(wǎng)站的受版權保護的作品。從理論上講，人工智能公司也可以建立算法，發(fā)現與現有藝術(shù)、音樂(lè )或寫(xiě)作作品高度相似的輸出。

　　這場(chǎng)“數據起義”從長(cháng)期來(lái)看可能無(wú)法掀起波瀾。像谷歌和微軟這樣的科技巨頭已經(jīng)擁有了海量的專(zhuān)有數據，并且有能力獲取更多數據。但是，隨著(zhù)內容獲取變得越來(lái)越困難，人工智能的規模也在縮小。那些想要與大公司抗衡的新興企業(yè)和非營(yíng)利機構可能無(wú)法得到足夠的數據來(lái)訓練他們的系統。

　　就在7月初，加州大學(xué)伯克利分校計算機科學(xué)教授、《人工智能——現代方法》作者斯圖爾特·羅素(Stuart Russell)發(fā)出警告稱(chēng)，ChatGPT等人工智能驅動(dòng)的機器人可能很快就會(huì )“耗盡宇宙中的文本”，通過(guò)收集大量文本來(lái)訓練機器人的技術(shù)“開(kāi)始遇到困難”。

　　一些公司也正在以合作態(tài)度應對這股浪潮。OpenAI在一份聲明中表示，“我們尊重創(chuàng )意人員和作者的權利，并期待繼續與他們合作，以保護他們的利益。”7月14日，美聯(lián)社同意將1985年以后的新聞報道檔案授權給OpenAI，同時(shí)也將利用OpenAI的技術(shù)和產(chǎn)品。

　　谷歌也在一份聲明中表示，它參與了關(guān)于出版商未來(lái)如何管理其內容的談判。該公司表示：“我們相信，每個(gè)人都能從一個(gè)充滿(mǎn)活力的內容生態(tài)系統中受益。”

　　人工智能公司HuggingFace的首席倫理科學(xué)家瑪格麗特·米切爾(Margaret Mitchell)在接受媒體采訪(fǎng)時(shí)表示，“整個(gè)數據收集系統都需要改變，不幸的是，它需要通過(guò)訴訟來(lái)實(shí)現，但這往往是推動(dòng)科技公司進(jìn)行改變的方式。”她說(shuō)，如果OpenAI因為訴訟或新規定而在年底前完全下架其中一款產(chǎn)品，她不會(huì )感到驚訝。

　　實(shí)習生陳曉銳澎湃新聞?dòng)浾?方曉

（責編：王東）

實(shí)證中國百萬(wàn)年人類(lèi)演化史周口店北京人遺址新發(fā)現古人類(lèi)頂骨化石
存量房貸利息要降？多家銀行客服回應
《長(cháng)安三萬(wàn)里》，是不是暑期檔黑馬？
烏媒：俄軍使用無(wú)人機襲擊敖德薩
教育部：加快推進(jìn)現代職業(yè)教育體系建設改革
美國爆發(fā)“數據起義”：好萊塢文學(xué)界新聞界和社交媒體反抗AI
引漢濟渭工程實(shí)現先期通水
美國東北部遭遇強風(fēng)暴千余架次航班被取消
2023年海峽兩岸“和平小天使”交流活動(dòng)啟幕
中新人物｜蔡磊，一個(gè)漸凍癥患者的“向死而生”

国产成人精品a有声小说,在线观看亚洲网站,91最新地址永久入口,欧美精品国产第一区二区

美國爆發(fā)“數據起義”：好萊塢文學(xué)界新聞界和社交媒體反抗AI

相關(guān)閱讀

專(zhuān)題推薦

微觀(guān)

賞閱

資料云

即時(shí)新聞