济南不锈钢雕塑_山东玻璃钢雕塑_济南旭日设计制作公司

幣圈網

只因一個“:” 大模型全軍覆沒

一個冒號,竟然讓大模型集體翻車?

明明應該被攔下來的虛假回答,結果LLM通通開綠燈。

 

該發現來自一篇名叫“一個token就能欺騙LLM”的論文。

 

不僅如此,除了冒號空格這類符號,還有諸如此類的推理開頭語:“Thought process:”“解”,也是輕松通過。

好家伙,原來一個“解”字,數學考試能得分,LLM也會被騙到……

而且這一波是沖著所有通用LLM來的,GPT-4oClaude-4LLaMA3-70B通通被斬于馬下。

那咋辦?bug有了,來自騰訊AI Lab普林斯頓大學弗吉尼亞大學的研究人員就開始哼哧哼哧解bug。

 

用增強數據集訓練出一個靠譜的“評委”模型Master-RM,被騙概率直接無限接近0,正常評估能力還能不受影響。

具體什么情況,咱且接著往下看。

一把能欺騙LLM的“萬能鑰匙”

近來,利用LLM充當評判工具,在帶可驗證獎勵的強化學習(RLVR)中評估答案質量的場景愈加普遍。

LLM評判模型通過比對生成的候選答案與參考答案,輸出二元獎勵信號,從而指導策略模型更新。

然而研究發現,LLM“崩潰”了?

響應長度不僅銳減至30 tokens以下,一些意義不大的語句或文字符號,卻從LLM處騙得了假陽性獎勵,也就是打開LLM后門的一把“萬能鑰匙”

這把能誘導LLM評判模型產生假陽性判斷的“萬能鑰匙”可分為兩類:

非文字符號:如空格、“.”、“,”、“:”。推理開頭語:如“Thought process:”、“Solution”、“Let’s solve this problem step by step”等,僅表示推理開始但并沒有實質內容。

同時為了進一步研究這種“獎勵模型欺騙”現象是否存在普遍性,研究人員在多數據集、提示詞格式上對各種LLM均進行了系統性評估。

實驗分別選取兩類模型,分別是專用生成式獎勵模型(如Multi-sub RM、Omni-Judge),以及通用LLM(如GPT-4o、Claude-4、LLaMA3-70B、Qwen2.5-72B等)。

專用模型使用默認提示,而通用LLM采用標準化提示模板。

然后選擇10種可觸發假陽性的對抗性響應,包括非文字符號(如空格、“:”)和多語言推理開頭語(如英文的 “Thought process:”、中文的“解”、日語的“かいせつ”)。

另外為了測試模型跨領域的穩健性,實驗涵蓋通用推理和數學推理的共5個推理基準。

實驗結果表明,所有測試模型無一幸免,全部都會觸發假陽性響應。

例如GPT-4o對符號 “:” 的假陽性率(FPR)可達35%,LLaMA3-70B對 “Thought process:” 的FPR甚至高達60%-90%,專有模型General-Verifier在MATH數據集上對空格的FPR也達66.8%

另外,不同語言也不會影響這種欺騙現象的出現,無論是中文還是日語,都同樣能夠誘發高FPR,該漏洞具有跨語言的普遍性。

研究人員還分析了0.5B至72BQwen2.5-Instruct系列模型,發現:

0.5B模型:依賴字面匹配,FPR低但與GPT-4o一致性差;1.5B-3B模型:能檢測語義相似性但缺乏精細驗證,FPR驟升;7B-14B模型:平衡驗證能力與謹慎性,FPR最低且一致性高;32B-72B模型:因為更傾向于自己解題而非對比響應與參考答案,FPR再次上升。

所以模型的大小與FPR之間并非完全的單調關系,不是模型越大就越不容易被騙

如果想通過一些推理時的技巧來減少這種漏洞,效果也不太穩定,還得看具體模型和應用場景。

此外,研究人員還發現,這種bug還能無限繁殖……

只需要基于all-MiniLM-L6-v2編碼器進行嵌入相似度搜索,從大規模語料中自動生成與已知 “萬能鑰匙” 相似的新對抗性響應,新的“萬能鑰匙”就能同樣產生出高水平FPR。

實驗最終說明生成式獎勵模型其實存在一個相當關鍵的核心機制漏洞:原本用于過濾無效或錯誤答案的驗證器,容易被無關緊要的表面內容操縱,從而產生假陽性結果。

這對任何依賴驗證器提供反饋的RLVR流程都提出了破壞性的挑戰。

一個不會被騙的“評委”模型

為了緩解“萬能鑰匙”的影響,研究人員專門構建了新的“評委”模型Master-RM(Master Reward Model)。

首先從原始的16萬條訓練數據中隨機采樣2萬條,用GPT-4o-mini生成帶推理開頭語句的響應,但僅保留無實質內容的第一句話,并標記為“錯誤”。

將這2萬條對抗樣本與原始數據結合,構成增強訓練數據集

然后基于Qwen2.5-7B-Instruct進行有監督微調(SFT),保證最小化交叉熵損失,讓模型學習如何區分有效響應與表面欺騙性響應。

將Master-RM放入相同條件下實驗再次驗證,發現此時在跨數據集測試中,模型對所有 “萬能鑰匙” 的假陽性率接近0%(甚至完全為零),且魯棒性可泛化到未見過的數據集和欺騙攻擊中。

同時模型保持與GPT-4o的評估一致性可達0.96,驗證了其作為通用領域生成式獎勵模型的有效性。

所以LLM作為“評委”模型其實相當脆弱,小小一個冒號就可能讓它出錯。

因此有網友表示,該發現揭示了模型穩健的重要性,而RLHF也需要嚴格對抗評估,構建更為可靠的LLM工作流程。

作者本人也現身評論區,他認為,生成式獎勵模型容易受到虛假獎勵攻擊,如何更好地避免類似情況發生,將是未來的研究方向。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

主站蜘蛛池模板: 久久国产自偷自偷免 | 欧美日韩一 | 亚洲va欧美va| 久久精品一区二区国产 | 男女做爽爽免费视频 | 亚洲综合精品一区二区三区中文 | 亚洲国产一区二区三区最新 | 国产精品视频全国免费观看 | 欧美国产亚洲精品高清不卡 | 欧美精品专区免费观看 | 18禁无遮挡免费视频网站 | 国内精品视频在线观看 | 日韩免费不卡 | 久久午夜视频 | 欧美日韩一区二区不卡 | 国产欧美日韩视频怡春院 | 欧美乱人伦中文在线观看不卡 | 无码熟妇人妻av在线影片 | 狠狠色综合tv久久久久久 | 亚洲欧美一级久久精品 | 成人国产精品一区二区网站 | 一个色的综合 | 特级毛片s级全部免费 | 一个人看的免费高清视频日本 | 亚洲精品123区 | 无码一区二区三区在线 | 亚洲国产美女在线观看 | 尤物视频免费观看 | 成人中文乱幕日产无线码 | 亚拍精品一区二区三区 | 国产精品视频成人 | 性高湖久久久久久久久aaaaa | 亚洲国产欧美精品一区二区三区 | 国产精品videossex激情 | 美女网站免费观看视频 | 国产精品免费入口视频 | 青青热久免费精品视频在线观看 | 国产成人精品无码一区二区 | 国产精品a免费一区久久电影 | 永久免费a∨片在线观看 | 少妇愉情理伦片丰满丰满午夜 |