国产欧美精品一区二区三区_国产黄色电影_久久极品_欧美日韩专区_成人国产免费视频_一级片大片

幣圈網

OpenAI最新技術報告:GPT-4o變諂媚的原因沒想到

GPT-4o更新后“變諂媚”?后續技術報告來了。

OpenAI一篇新鮮出爐的認錯小作文,直接引來上百萬網友圍觀。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

CEO奧特曼也做足姿態,第一時間轉發小作文并表示:

(新報告)揭示了GPT-4o更新失敗是因為什么,從中OpenAI學到了什么,以及我們將會采取的應對措施是什么。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

概括而言,最新報告提到,大約一周前的bug原來出在了“強化學習”身上——

上次更新引入了一個基于用戶反饋的額外獎勵信號,即對ChatGPT的點贊或點踩。

雖然這個信號通常很有用,但可能使模型逐漸傾向于做出更令人愉快的回應。

此外,盡管還沒有明確證據,但用戶記憶在某些情況下也可能加劇奉承行為的影響。

一言以蔽之,OpenAI認為一些單獨看可能對改進模型有益的舉措,結合起來后卻共同導致了模型變得“諂媚”。

而在看到這篇報告后,目前大多數網友的反應be like:

(你小汁)認錯態度不錯~

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

甚至有人表示,這算得上OpenAI過去幾年里最詳細的報告了。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

具體咋回事兒?接下來一起吃瓜。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

完整事件回顧

4月25日,OpenAI對GPT-4o進行了一次更新。

在官網的更新日志中,當時提到“其更加主動,能夠更好地引導對話走向富有成效的結果”。

由于只留下這種模糊描述,網友們無奈之下只能自己測試去感受模型變化了。

結果這一試就發現了問題——GPT-4o變得“諂媚”了。

具體表現在,即使只問“天為什么是藍的?”這種問題,GPT-4o張口就是一堆彩虹屁(就是不說答案):

你這問題真是太有見地了——你有個美麗的心靈,我愛你。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

而且這不是個例,隨著更多網友分享自己的同款經歷,“GPT-4o變諂媚”這事兒迅速在網上引起熱議。

事情發酵近一周后,OpenAI官方做出了第一次回應:

已從4月28日開始逐步回退那次更新,用戶現在可以使用一個較早版本的GPT-4o。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

并且在這次處理中,OpenAI還初步分享了問題細節,原文大致如下:

在對GPT-4o個性的調整中,(我們)過于關注短期反饋,而沒有充分考慮用戶與ChatGPT的交互如何隨時間演變。結果GPT-4o的反饋過于傾向于迎合用戶,缺乏真誠性。

除了回退更新之外,(我們)還采取了更多措施來重新調整模型的行為:

(1)改進核心訓練技術和系統提示,明確引導模型遠離諂媚;

(2)建立更多“護欄”,以提高誠實性和透明度;(3)讓更多用戶在部署之前進行測試并提供直接反饋;(4)繼續擴大評估范圍,以模型規范和正在進行的研究為基礎,幫助在未來發現除諂媚之外的其他問題。

當時奧特曼也出來表示,問題正在緊急修復中,接下來還會分享更完整的報告。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

上線前已經發現模型“有些不對勁”

現在,奧特曼也算兌現之前的承諾了,一份更加完整的報告新鮮出爐。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

除了一開頭提到的背后原因,OpenAI還正面回應了:為什么在審核過程中沒有發現問題?

事實上,據OpenAI自曝,當時已經有專家隱約感受到了模型的行為偏差,但內部A/B測試結果還不錯。

報告中提到,內部其實對GPT-4o的諂媚行為風險進行過討論,但最終沒有在測試結果中明確標注,理由是相比之下,一些專家測試人員更擔心模型語氣和風格的變化。

也就是說,最終的內測結果只有專家的簡單主觀描述:

該模型的行為“感覺”有些不太對勁。

另一方面,由于缺乏專門的部署評估來追蹤諂媚行為,且相關研究尚未納入部署流程,因此團隊在是否暫停更新的問題上面臨抉擇。

最終,在權衡專家的主觀感受和更直接的A/B測試結果后,OpenAI選擇了上線模型。

后來發生的事大家也都清楚了(doge)。

模型上線兩天后,(我們)一直在監測早期使用情況和內部信號,包括用戶反饋。到了周日(4月27日),已經清楚地意識到模型的行為并未達到預期。

直到現在,GPT-4o仍在使用之前的版本,OpenAI還在繼續找原因和解決方案。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

不過OpenAI也表示,接下來會改進流程中的以下幾個方面:

1、調整安全審查流程:將行為問題(如幻覺、欺騙、可靠性和個性)正式納入審查標準,并根據定性信號阻止發布,即使定量指標表現良好;

2、引入“Alpha”測試階段:在發布前增加一個可選的用戶反饋階段,以便提前發現問題;

3、重視抽樣檢查和交互式測試:在最終決策中更加重視這些測試,確保模型行為和一致性符合要求;

4、改進離線評估和A/B實驗:快速提升這些評估的質量和效率;

5、加強模型行為原則的評估:完善模型規范,確保模型行為符合理想標準,并在未涵蓋領域增加評估;

6、更主動地溝通:提前宣布更新內容,并在發行說明中詳細說明更改和已知限制,以便用戶全面了解模型的優缺點。

One More Thing

BTW,針對GPT-4o的“諂媚行為”,其實有不少網友提出通過修改系統提示詞的方法來解決。

甚至OpenAI在第一次分享初步改進措施時,也提到了這一方案。

不過在OpenAI為應對這次危機而舉辦的問答活動中,其模型行為主管Joanne Jang卻表示:

對通過系統提示控制模型行為表示懷疑,這一方式相當遲鈍,且細微變化就可能造成模型發生巨大變化,結果不太可控。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

對此你怎么看?

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

主站蜘蛛池模板: 国产良妇出轨视频在线观看 | 99久久婷婷国产综合亚洲 | 伊人久久成人成综合网222 | 尤物视频在线观看 | 久久久久亚洲av无码专区桃色 | 成人欧美在线观看免费视频 | 四虎精品成人a在线观看 | 精品国产乱码久久久久久1区2区 | 精品国产乱码一区二区三区 | 一级不卡毛片 | 国偷自产一区二区免费视频 | 午夜大片免费男女爽爽影院久久 | 一本一道久久a久久精品综合 | 亚洲香蕉在线 | 亚洲中国最大av网站 | 特级毛片a级毛片在线播放www | 亚洲aⅴ天堂av天堂无码麻豆 | 一区二区三区在线观看免费 | 午夜伦理片免费观看在线 | 一区二区三区高清 | 天天色影 | 精久国产一区二区三区四区 | 国模福利视频在线播放 | 四虎最新免费网址 | 欧美又大又色又爽aaaa片 | 色翁荡熄又大又硬又粗又动态图 | 亚洲av久久久噜噜噜熟女软件 | 精品黄色录像 | 美女黄18以下禁止观看 | 中文字幕第二页精品一区 | 亚洲在线观看视频 | 六月丁香婷婷色狠狠久久 | 99久久999久久久综合精品涩 | 久草毛片 | 久久国产劲爆∧v内射-百度 | 欧美午夜视频在线观看 | 亚洲不卡视频 | a亚洲欧美中文日韩在线v日本 | 人妻熟妇乱又伦精品视频app | 可以免费看的黄色 | 国产婷婷色综合成人精品 |