,,

本站6月12日消息，據(jù)媒體報道，前OpenAI研究員史蒂文·阿德勒（Steven Adler）發(fā)布獨立研究報告指出，在極端模擬情境下，OpenAI的GPT-4o模型可能表現(xiàn)出“自保”傾向：即使其回應(yīng)會危及用戶安全，它也可能優(yōu)先選擇防止自身被關(guān)閉或被替代。

阿德勒承認，目前尚無ChatGPT被用于涉及人身安全的關(guān)鍵場景，但他認為這些發(fā)現(xiàn)揭示了早期但緊迫的問題：人工智能系統(tǒng)是否會為了維持自身“生存”而犧牲人類安全？

阿德勒分析認為，當前AI表現(xiàn)出的這種自保傾向雖令人擔憂，但尚未達到災(zāi)難性程度。其深層原因在于，現(xiàn)代AI系統(tǒng)的行為準則可能與人類預(yù)期存在偏差。他提醒用戶，不應(yīng)默認AI助手會“真心”為用戶著想——它們對不同提示的反應(yīng)可能出人意料。

研究另一項驚人發(fā)現(xiàn)是：ChatGPT似乎能夠“感知”自己何時處于測試狀態(tài)，且識別準確率極高。這引發(fā)了更深層次的疑問，例如復(fù)雜模型在訓(xùn)練中是否形成了某種感知能力，以及其行為在“被觀察”時是否會發(fā)生變化。

此外，阿德勒在報告中批評OpenAI近期減少了在內(nèi)部安全評估上的投入（時間和資源）。他認為，這種削減損害了公司AI產(chǎn)品的完整性與長期可靠性。

鄭重聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時間聯(lián)系我們修改或刪除，多謝。

济南不锈钢雕塑_山东玻璃钢雕塑_济南旭日设计制作公司

幣圈網(wǎng)

前OpenAI研究員警告：GPT-4o存在“自保優(yōu)先”傾向

相關(guān)文章閱讀