本週,白宮宣布已獲得七家領先人工智能公司的“自願承諾”,以管理人工智能帶來的風險。
讓亞馬遜、Anthropic、谷歌、Inflection、Meta、微軟和 OpenAI 等公司就任何事情達成一致就是向前邁出的一步。 它們包括激烈的競爭對手,在人工智能研究和開發的方式上存在微妙但重要的差異。
例如,Meta 非常渴望將其人工智能模型交到開發人員手中,因此它已經開源了其中的許多模型,將其代碼公開給任何人使用。 其他實驗室,例如 Anthropic,採取了更為謹慎的態度,以更有限的方式發布他們的技術。
但這些承諾實際上意味著什麼? 鑑於人工智能公司沒有法律力量的支持,它們是否可能對人工智能公司的運營方式產生很大的改變?
考慮到人工智能監管的潛在風險,細節很重要。 因此,讓我們仔細看看這里達成的協議並評估潛在的影響。
承諾1:公司承諾在發佈人工智能係統之前對其進行內部和外部安全測試。
這些人工智能公司在發布之前都已經對其模型進行了安全測試——通常稱為“紅隊測試”。 從某種程度上來說,這並不是一個真正的新承諾。 這是一個模糊的承諾。 它沒有提供有關需要進行何種測試或由誰進行測試的詳細信息。
在 附有承諾的聲明白宮僅表示,人工智能模型的測試“將部分由獨立專家進行”,並重點關注“生物安全和網絡安全等人工智能風險,及其更廣泛的社會影響”。
讓人工智能公司公開承諾繼續進行此類測試,並鼓勵測試過程更加透明,這是一個好主意。 還有一些類型的人工智能風險——例如人工智能模型可用於開發生物武器的危險——政府和軍事官員可能比公司更適合評估。
我很高興看到人工智能行業就一系列標準的安全測試達成一致,例如“自主複製”測試 對準研究中心 在 OpenAI 和 Anthropic 預發布的模型上進行。 我還希望看到聯邦政府資助此類測試,這些測試可能很昂貴,並且需要具有重要技術專業知識的工程師。 目前,許多安全測試都是由公司資助和監督的,這引發了明顯的利益衝突問題。
承諾2:公司承諾在整個行業以及與政府、民間社會和學術界分享有關管理人工智能風險的信息。
這個承諾也有點模糊。 其中一些公司已經發布了有關其人工智能模型的信息——通常是在學術論文或企業博客文章中。 其中一些公司,包括 OpenAI 和 Anthropic,還發布了名為“系統卡”的文檔,其中概述了他們為使這些模型更安全而採取的步驟。
但他們有時也會以安全問題為由隱瞞信息。 當 OpenAI 今年發布最新的 AI 模型 GPT-4 時, 打破行業慣例 並選擇不透露它訓練了多少數據,或者模型有多大(稱為“參數”的指標)。 該公司表示,出於對競爭和安全的擔憂,拒絕透露這一信息。 這也恰好是科技公司喜歡遠離競爭對手的數據類型。
根據這些新的承諾,人工智能公司是否會被迫公開此類信息? 如果這樣做有加速人工智能軍備競賽的風險怎麼辦?
我懷疑白宮的目標不是強迫公司披露其參數數量,而是鼓勵他們相互交換有關其模型確實(或不)構成風險的信息。
但即使是這種信息共享也可能存在風險。 如果谷歌的人工智能團隊在預發布測試期間阻止新模型被用來設計致命的生物武器,那麼它是否應該在谷歌之外分享這些信息? 這是否會給不良行為者帶來關於如何讓一個較少保護的模型來執行相同任務的想法?
承諾 3:公司承諾投資網絡安全和內部威脅防護措施,以保護專有和未發布的模型權重。
這個問題非常簡單,在我採訪過的人工智能內部人士中也沒有爭議。 “模型權重”是一個技術術語,指的是賦予人工智能模型運行能力的數學指令。 如果你是外國政府(或競爭對手公司)的代理人,想要構建自己版本的 ChatGPT 或其他人工智能產品,那麼權重就是你想要竊取的東西。 人工智能公司嚴格控制這一點符合既得利益。
模型權重洩露的問題已經廣為人知。 例如,Meta 原始 LLaMA 語言模型的權重為 在 4chan 上洩露 該模型公開發布幾天后,以及其他網站。 考慮到更多洩密的風險,以及其他國家可能有興趣從美國公司竊取這項技術,要求人工智能公司在自身安全方面進行更多投資似乎是理所當然的事情。
承諾4:兩家公司承諾促進第三方發現和報告其人工智能係統中的漏洞。
我不太確定這意味著什麼。 每家人工智能公司在發布模型後都會發現其模型中的漏洞,通常是因為用戶試圖用模型做壞事或以公司未預見到的方式規避模型的護欄(一種稱為“越獄”的做法)。
白宮承諾要求公司針對這些漏洞建立“強大的報告機制”,但尚不清楚這可能意味著什麼。 應用內反饋按鈕,類似於允許 Facebook 和 Twitter 用戶舉報違規帖子的按鈕? 一個錯誤賞金計劃,就像這個 OpenAI 今年啟動 獎勵發現其係統缺陷的用戶? 還有別的事嗎? 我們將不得不等待更多細節。
承諾5:公司致力於開發強大的技術機制,以確保用戶知道內容何時由人工智能生成,例如水印系統。
這是一個有趣的想法,但留下了很大的解釋空間。 到目前為止,人工智能公司一直在努力設計工具,讓人們能夠判斷他們是否正在查看人工智能生成的內容。 這有很好的技術原因,但當人們可以將人工智能生成的工作冒充為自己的工作時,這就是一個真正的問題。 (問問任何一位高中老師。)目前許多被宣傳為能夠檢測人工智能輸出的工具實際上無法以任何程度的準確性做到這一點。
我對這個問題能夠完全解決並不樂觀。 但我很高興各公司承諾為此努力。
承諾 6:公司承諾公開報告其人工智能係統的功能、局限性以及適當和不適當使用的領域。
另一個聽起來很明智的承諾,有很大的迴旋餘地。 公司多久需要報告其係統的功能和限制? 這些信息必須有多詳細? 考慮到許多構建人工智能係統的公司在事後都對自己系統的功能感到驚訝,那麼他們真的能在多大程度上提前描述這些系統呢?
承諾7:公司承諾優先研究人工智能係統可能帶來的社會風險,包括避免有害的偏見和歧視以及保護隱私。
致力於“優先考慮研究”是一種模糊的承諾。 儘管如此,我相信這一承諾會受到人工智能道德人群中許多人的歡迎,他們希望人工智能公司將預防偏見和歧視等近期傷害作為優先事項,而不是擔心世界末日場景,就像人工智能安全人士所做的那樣。
如果您對“人工智能倫理”和“人工智能安全”之間的差異感到困惑,請知道人工智能研究界內存在兩個敵對派系,每個派係都認為對方專注於防止錯誤的傷害。
承諾8:兩家公司致力於開發和部署先進的人工智能係統,以幫助解決社會面臨的最大挑戰。
我不認為很多人會認為先進的人工智能應該 不是 用於幫助解決社會面臨的最大挑戰。 白宮將“癌症預防”和“緩解氣候變化”列為希望人工智能公司重點關注的兩個領域,我對此不會有異議。
然而,讓這個目標變得有些複雜的是,在人工智能研究中,一開始看起來無聊的事情往往會產生更嚴重的影響。 DeepMind 的 AlphaGo(一種經過訓練可以玩棋盤遊戲圍棋的人工智能係統)所採用的一些技術在預測蛋白質的三維結構方面非常有用,這是一項促進基礎科學研究的重大發現。
總體而言,白宮與人工智能公司的交易似乎更具象徵意義,而不是實質性的。 沒有執行機制來確保公司遵守這些承諾,其中許多承諾反映了人工智能公司已經採取的預防措施。
儘管如此,這仍然是合理的第一步。 同意遵守這些規則表明人工智能公司已經從早期科技公司的失敗中吸取了教訓,這些公司等到遇到麻煩才與政府接觸。 在華盛頓,至少在科技監管方面,儘早出現是值得的。