技術 針對人工智能的數據革命爆發

針對人工智能的數據革命爆發

經過 admin
0 評論

20 多年來,Kit Loffstadt 一直在為《星球大戰》英雄和《吸血鬼獵人巴菲》反派撰寫探索平行宇宙的同人小說,並在網上免費分享她的故事。

但今年 5 月,洛夫施塔特得知一家數據公司複製了她的故事並將其輸入病毒式聊天機器人 ChatGPT 的人工智能技術後,她停止發布自己的作品。 沮喪之餘,她把自己的作品藏在一個被鎖定的賬戶後面。

洛夫施塔特女士上個月還幫助組織了一場反對人工智能係統的叛亂行動。 她與其他數十位同人小說作家一起,在網上發表了大量不敬的故事,以壓倒和混淆將作家作品輸入人工智能技術的數據收集服務。

來自英國南約克郡的 42 歲配音演員洛夫施塔特女士說:“我們每個人都必須盡一切努力向他們展示我們的創造力產出,而不是讓機器隨心所欲地收穫。”

隨著對人工智能技術的狂熱席捲了矽谷和全世界,同人小說作家只是現在發起反對人工智能係統的群體之一。 近幾個月來,Reddit 和 Twitter 等社交媒體公司、《紐約時報》和 NBC News 等新聞機構、保羅·特倫布萊 (Paul Tremblay) 和女演員莎拉·西爾弗曼 (Sarah Silverman) 等作家都反對人工智能未經許可吸收他們的數據。

他們的抗議採取了不同的形式。 作家和藝術家正在鎖定他們的文件以保護他們的作品,或者抵制某些發佈人工智能生成內容的網站,而 Reddit 等公司則希望對訪問他們的數據收取費用。 今年至少有 10 起針對人工智能公司的訴訟,指控它們在未經同意的情況下根據藝術家的創意作品訓練其係統。 上週,Silverman 女士和作者 Christopher Golden 和 Richard Kadrey 起訴 ChatGPT 的製造商 OpenAI 和其他公司,指控 AI 使用他們的作品。

叛亂的核心是一種新的認識,即在線信息——故事、藝術品、新聞文章、留言板帖子和照片——可能具有巨大的未開發價值。

新一波人工智能——因其生成的文本、圖像和其他內容而被稱為“生成人工智能”——建立在大型語言模型等複雜系統之上,這些系統能夠生成類似人類的散文。 這些模型接受了各種數據的訓練,因此它們可以回答人們的問題、模仿寫作風格或大量創作喜劇和詩歌。

這引發了科技公司尋找更多數據來為其人工智能係統提供數據。 谷歌、Meta 和 OpenAI 基本上使用了來自整個互聯網的信息,包括大型同人小說數據庫、大量新聞文章和書籍收藏,其中大部分可以免費在線獲取。 用科技行業的話說,這被稱為“抓取”互聯網。

OpenAI 的 GPT-3 是 2020 年發布的人工智能係統,涵蓋 5000 億個“令牌”,每個令牌代表主要在網上找到的單詞的一部分。 一些人工智能模型涵蓋超過一萬億個代幣。

抓取互聯網的做法由來已久,並且大部分是由這樣做的公司和非營利組織披露的。 但擁有這些數據的公司並沒有很好地理解或認為這是一個特別有問題的問題。 ChatGPT 在 11 月首次亮相後,這種情況發生了變化,公眾更多地了解了為聊天機器人提供支持的底層人工智能模型。

人工智能公司 Nomic 的創始人兼首席執行官布蘭登·杜德施塔特 (Brandon Duderstadt) 表示:“這裡正在發生的事情是數據價值的根本性重新調整。” “以前,人們的想法是,通過向所有人開放數據並投放廣告來從數據中獲取價值。 現在,我們的想法是鎖定你的數據,因為當你將其用作人工智能的輸入時,你可以提取更多的價值”

從長遠來看,數據抗議可能不會產生什麼影響。 谷歌和微軟等財力雄厚的科技巨頭已經坐擁大量專有信息,並擁有授權更多資源的資源。 但隨著易於抓取內容的時代即將結束,原本希望與大公司競爭的小型人工智能新貴和非營利組織可能無法獲得足夠的內容來訓練他們的系統。

OpenAI 在一份聲明中表示,ChatGPT 接受了“許可內容、公開內容和人類人工智能培訓師創建的內容”的培訓。 它補充說,“我們尊重創作者和作者的權利,並期待繼續與他們合作,保護他們的利益。”

谷歌在一份聲明中表示,它正在參與有關出版商未來如何管理其內容的談判。 該公司表示:“我們相信每個人都會從充滿活力的內容生態系統中受益。” 微軟沒有回應置評請求。

去年 ChatGPT 成為全球現像後,數據叛亂爆發了。 11月,一群程序員 提起集體訴訟 針對微軟和 OpenAI,聲稱這些公司在他們的代碼被用來訓練人工智能驅動的編程助手後侵犯了他們的版權。

一月份,提供庫存照片和視頻的 Getty Images 起訴了 Stability AI(一家根據文本描述創建圖像的人工智能公司),聲稱這家初創公司使用受版權保護的照片來訓練其係統。

隨後在 6 月,洛杉磯一家律師事務所 Clarkson 對 OpenAI 和微軟提起了一份長達 151 頁的集體訴訟,描述了 OpenAI 如何收集未成年人的數據,並表示網絡抓取違反了版權法並構成“盜竊”。 週二,該公司對谷歌提起了類似訴訟。

瑞安·克拉克森 (Ryan Clarkson) 表示:“我們在全國范圍內看到的數據叛亂是社會抵制這樣一種觀念的方式,即大型科技公司只是有權從任何來源獲取任何和所有信息,並將其變成自己的信息。”克拉克森的創始人。

聖克拉拉大學法學院教授埃里克·戈德曼表示,訴訟的論點範圍廣泛,不太可能被法院接受。 但他表示,訴訟浪潮才剛剛開始,“第二波和第三波”即將到來,這將定義人工智能的未來。

大公司也在抵制人工智能抓取工具。 今年 4 月,Reddit 表示希望對其應用程序編程接口(API)的訪問收取費用,第三方可以通過該方法下載和分析該社交網絡龐大的人與人對話數據庫。

Reddit 首席執行官史蒂夫·霍夫曼 (Steve Huffman) 當時表示,他的公司“不需要將所有這些價值免費提供給世界上一些最大的公司”。

同月,計算機程序員問答網站 Stack Overflow 表示,還將要求人工智能公司為數據付費。 該網站有近 6000 萬個問題和答案。 此前曾有報導稱其此舉 由連線。

新聞機構也在抵制人工智能係統。 在 6 月份關於使用生成式人工智能的內部備忘錄中,《泰晤士報》表示人工智能公司應該“尊重我們的知識產權”。 時報發言人拒絕詳細說明。

對於個體藝術家和作家來說,對抗人工智能係統意味著重新思考他們的出版地點。

35 歲的尼古拉斯·科爾 (Nicholas Kole) 是不列顛哥倫比亞省溫哥華市的一名插畫家,他對人工智能係統如何復制自己獨特的藝術風格感到震驚,並懷疑該技術已經刮掉了他的作品。 他計劃繼續在 Instagram、Twitter 和其他社交媒體網站上發布自己的作品以吸引客戶,但他已停止在 ArtStation 等網站上發布作品,這些網站將人工智能生成的內容與人類生成的內容一起發布。

“這感覺像是對我和其他藝術家的肆意盜竊,”科爾先生說。 “它讓我的胃裡充滿了存在主義的恐懼。”

Archive of Our Own 是一個擁有超過 1100 萬個故事的同人小說數據庫,作家們不斷向該網站施壓,要求其禁止數據抓取和人工智能生成的故事。

今年 5 月,當一些 Twitter 賬戶分享了 ChatGPT 模仿 Archive of Our Own 上流行同人小說風格的例子時,數十名作家奮起反抗。 他們屏蔽了自己的故事並編寫了顛覆性內容來誤導人工智能抓取者。 他們還敦促 Archive of Our Own 的領導人停止允許人工智能生成內容。

為《Archive of Our Own》提供法律建議的塔爾薩大學法學院教授貝齊·羅森布拉特 (Betsy Rosenblatt) 表示,該網站奉行“最大包容性”政策,並不想辨別哪些故事是寫的。與人工智能

對於同人小說作家洛夫施塔特來說,與人工智能的鬥爭是在她撰寫《地平線零之黎明》的故事時發生的,這是一款視頻遊戲,人類在後世界末日的世界中與人工智能驅動的機器人戰鬥。 她說,在遊戲中,有些機器人做得很好,有些則很糟糕。

但在現實世界中,她說,“由於傲慢和企業的貪婪,他們被扭曲去做壞事。”

You may also like

發表評論

關於我們

china-today.news 通過易於閱讀的帖子介紹了最新熱門新聞,政治,技術,創業公司,健康和科學方面的最新和重要突破。新興技術正在改變我們社會和文化的未來。我們的使命是收集,記錄和傳播有關變革性技術和科學發現的信息報告,這些報告可能會改變我們的文化,生活和行業。

最新的文章

Copyright ©️ All rights reserved. | China Today