本站6月12日消息,據(jù)媒體報道,前OpenAI研究員史蒂文·阿德勒(Steven Adler)發(fā)布獨立研究報告指出,在極端模擬情境下,OpenAI的GPT-4o模型可能表現(xiàn)出“自保”傾向:即使其回應(yīng)會危及用戶安全,它也可能優(yōu)先選擇防止自身被關(guān)閉或被替代。
阿德勒承認,目前尚無ChatGPT被用于涉及人身安全的關(guān)鍵場景,但他認為這些發(fā)現(xiàn)揭示了早期但緊迫的問題:人工智能系統(tǒng)是否會為了維持自身“生存”而犧牲人類安全?
阿德勒分析認為,當前AI表現(xiàn)出的這種自保傾向雖令人擔憂,但尚未達到災(zāi)難性程度。其深層原因在于,現(xiàn)代AI系統(tǒng)的行為準則可能與人類預(yù)期存在偏差。他提醒用戶,不應(yīng)默認AI助手會“真心”為用戶著想——它們對不同提示的反應(yīng)可能出人意料。
研究另一項驚人發(fā)現(xiàn)是:ChatGPT似乎能夠“感知”自己何時處于測試狀態(tài),且識別準確率極高。這引發(fā)了更深層次的疑問,例如復(fù)雜模型在訓(xùn)練中是否形成了某種感知能力,以及其行為在“被觀察”時是否會發(fā)生變化。
此外,阿德勒在報告中批評OpenAI近期減少了在內(nèi)部安全評估上的投入(時間和資源)。他認為,這種削減損害了公司AI產(chǎn)品的完整性與長期可靠性。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。