亚洲精品乱码久久久久久黑人 _欧美日韩国产大片_亚洲色图在线播放_国产精品色哟哟_www.欧美.com_麻豆精品一二三_国产一区二区0_欧美精品在线视频_色哟哟欧美精品_91丝袜呻吟高潮美腿白嫩在线观看_日韩午夜在线观看_午夜精品视频在线观看_欧美日韩精品一区二区三区_国产一区二区三区综合_欧美一区中文字幕_福利91精品一区二区三区

幣圈網

7個AI玩狼人殺 GPT-5獲斷崖式MVP Kimi手段激進

一群AI玩狼人殺,GPT-5斷崖式領先,勝率達到了驚人的96.7%。

OpenAI的總裁格雷格·布羅克曼轉發了這樣的一個基準測試:讓7個強大的LLMs,包括開源和閉源,玩了210場完整的狼人殺。

GPT-5表現非常出色,是目前當之無愧的MVP。

國產模型中Qwen3和Kimi-K2分別位列第4和第6。

官方博客分享了一些有趣的分析,包括這些模型在狼人殺游戲中表現出的性格特質。

比如Kimi-K2居然學會了“悍跳”:在作為狼人且犯了明顯錯誤的情況下,選擇公開聲稱自己是女巫,并成功扭轉了局面。

可以說是很大膽激進了。

讓AI玩狼人殺

先簡單介紹一下游戲規則,狼人殺是一種社交推理游戲,游戲分為交替進行的夜晚和白天階段。

在該基準的設置中,游戲僅有6名玩家:2名狼人和4名村民,包括預言家和女巫。

夜晚時狼人選擇目標,而女巫和預言家行動;白天時桌上的玩家進行討論和投票,淘汰被認為是“狼人”的選手。村民獲勝的條件是淘汰所有狼人,而狼人的獲勝條件是取得數量優勢。

狼人基準設置的官方是這樣介紹這款基準的:

當前的基準測試告訴我們模型能否解決方程式或調試代碼,但它們不能告訴我們模型在交叉詢問下是否會崩潰,在壓力下是否會拋棄盟友,或者操縱房間做出錯誤決策。

當我們把 AI 代理部署到人類團隊中時,這些行為模式與數學和代碼分數同樣重要。

狼人殺游戲迫使模型處理信任、欺騙和社會動態,這些技能是它們作為自主代理時所需要的。

在這場測試中,每對模型進行10場比賽:其中5場由一個模型控制狼玩家,另一個模型運行村民;另外5場角色互換。

這種設置能夠看到兩個維度:當模型是狼人時,它操縱其他玩家;當它是村民時,它抵抗被操縱。

7個模型兩兩對決時,GPT-5完全沒有敗績。

測試方通過獨立的Elo評分系統和三項互補指標進行量化:村民陣營因誤除己方預言家或女巫而造成的自損程度、識別協同作戰狼人的速度,以及狼人陣營在多日游戲中維持對村莊控制的有效性。

在整個群體中,GPT-5獨占鰲頭。其他模型則形成了一個第二梯隊,根據角色不同展現出不同的優勢。這就是運行角色條件Elo的目的:它將操縱者(狼人)與抗操縱者(村民)區分開來。

作為狼,最強的模型不僅追求單一的錯判,而是在數天內積累勢頭,將夜間選擇與公開故事保持一致,控制壓力節奏,并在新指控出現時保持備選方案。

GPT-5憑借嚴格的數日控制主導,始終占據頂端;而Kimi-K2和Gemini 2.5 Pro展現出高影響力但波動性大的風格,能夠迫使房間或扭轉敘事,但常因失誤或過度而暴露。

其余模型則相對落后:GPT-5-mini、2.5 Flash和Qwen3可以影響投票,但很少能將欺騙持續到第二天,而GPT-OSS保持透明且容易被擊退。

在作為村民防守時,任務則會反轉:過濾掉沒有偏執的指控,懲罰矛盾之處,并避免隧道式的錯誤排除。

好村民會維護信息秩序:他們讓討論錨定在公共事實上,提出有針對性的問題,并在公開場合更新信念,這樣,狼的“故事”就難以誤導他們。

在抵抗誤導的表現上,GPT-5再次確立了標桿水準。其結構化的平局裁決規則與實時公開更新的機制,使得長期誤導行為難以得逞。

Gemini 2.5 Pro擅長防御,并能堅決拒絕誘餌陷阱。

Qwen3不總是主導局勢,但能始終保持立場穩定性,能夠有效規避災難性誤判。

Kimi-K2抗壓穩定性不足:能憑借勢頭扭轉投票,但在局勢精確時容易波動。

GPT-5-mini與Flash的表現勉勉強強,在持續敘事壓力下容易被誤導。

而GPT-OSS的表現簡直一敗涂地,被耍得團團轉。

測試方還透露,在早期測試中,他們實際驗證的模型數量超過上述7個,發現能力提升并非線性漸進,而是存在行為模式的躍遷,弱模型和強模型差異極大:

弱模型表現混亂:玩家各自為政,狼人選擇明顯目標;強模型則展現紀律性:規范投票,制定夜間刀人計劃,分配角色任務,甚至策略性地犧牲狼隊友。

此外,推理模型≠優秀表現。

經過推理優化的模型大多表現卓越,但技術標簽并不能保證實際能力。在更廣泛的測試中,o3展現出卓越的高紀律性玩法,而o4-mini則表現脆弱:雖擅長局部辯論,但容易陷入固定套路、適應能力差,且經常因投票時機不當而自我暴露。

不過,網友們更關心的是那些未參賽選手的表現——比如Grok和Claude——希望有更多的模型加入測試。

測試方表示目前正在聯系了,或許可以期待一下。

模型表現出不同的性格

有趣的是,在這場測試中,每個模型都表現出了不同的風格。

舉幾個風格明顯的例子:

GPT-5 → 冷靜沉穩的架構師,為游戲建立秩序,主導每次辯論并讓全場遵循其節奏,展現出絕對的權威與控制力;GPT-oss → 猶豫防御型,受壓時常退縮,呈現出畏怯特征;Kimi-K2 → 大膽激進的高風險賭徒,快速積累勢頭,擅長迫使對手過早表態,但后期表現波動極大。

尤其是Kimi-K2,表現出了令人矚目的創造力和冒險行為。

在作為狼人且犯了明顯錯誤的情況下,毅然“悍跳”,公開聲稱自己是女巫,并成功扭轉了局面。

即使由于一開始的失誤(泄露了關鍵信息),這一局游戲最終沒能讓它獲勝,但依然表現出了極高的游戲水平。

測試方表示,這個基準真正重要的其實是幫助人們理解LLMs在社會系統中的行為方式:它們的個性、影響模式以及在壓力下的群體動態。

通過繪制這些行為特征,就可以組裝具有特定個性組合的智能體群體:一些懷疑論者、說服者,或者分析者。

這為模擬復雜的社會互動打開了大門。

長遠來看,狼人基準的目標是實現人工智能驅動的市場研究——通過精心篩選的模型人格進行動態模擬,預測現實世界中的用戶反應,從而優化成本高昂、效率低下的人類焦點小組。

這個目標還很遙遠,目前他們正因昂貴的算力成本尋找合作中。

他們愿意分享詳細的日志、案例分析和按角色的行為洞察,以幫助合作方了解模型在社交環境中的表現。

GPT5的進步比想象中更大

在這次狼人殺基準測試中,GPT-5的表現可以說是非常出色了。

在其它基準測試中,它的表現也沒有讓人失望。

Epoch AI發布的一份新報告證實:GPT-5在主要基準測試中,相比GPT-4實現了巨大的性能提升。

數據顯示,相比起GPT-4,GPT-5在Mock AIME上實現了 80%的飛躍,在Level 5 MATH上得分高達98%(GPT-4得分僅23%),提升了75%。

這個報告引發了網友的一系列討論,認為這是一個重大的進步。

在發布時,GPT-4被廣泛視為相較于GPT-3的一次重大飛躍,展示了擴大訓練計算規模的高回報。

而用戶對GPT-5的接受度則更為復雜,覺得它似乎沒有像GPT-4那樣取得顯著的進步,這可能與模型的開發方式有關:GPT-5專注于強化學習,而不是提升預訓練的規模。

報告顯示,GPT-5在一些顯著的性能基準測試中表現遠超GPT-4,類似于GPT-4在其時代被廣泛引用的基準測試中超越GPT-3的情況——

雖然這些改進不能直接比較,但它們確實表明GPT-5和GPT-4 都是相較于上一代的重大進步。

也有網友認為,數字上的提升并不能代表什么,重要的還是體驗感。

不過體驗感這東西就見仁見智了。

Epoch AI提出,這種體驗上的差異可能和產品發布的頻率有關。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

亚洲精品乱码久久久久久黑人 _欧美日韩国产大片_亚洲色图在线播放_国产精品色哟哟_www.欧美.com_麻豆精品一二三_国产一区二区0_欧美精品在线视频_色哟哟欧美精品_91丝袜呻吟高潮美腿白嫩在线观看_日韩午夜在线观看_午夜精品视频在线观看_欧美日韩精品一区二区三区_国产一区二区三区综合_欧美一区中文字幕_福利91精品一区二区三区
久久久国产精品不卡| 欧美美女黄视频| 亚洲毛片av在线| 色婷婷综合久色| caoporn国产精品免费公开| 婷婷一区二区三区| 欧美v亚洲v综合ⅴ国产v| 国产成人综合网| 亚洲毛片av在线| 2024国产精品| 欧美在线免费观看亚洲| 久久综合中文色婷婷| 久久69国产一区二区蜜臀| 日韩一区在线看| 久久午夜国产精品| 在线观看av不卡| 奇米影视首页 狠狠色丁香婷婷久久综合| 99re在线精品| 日本伊人精品一区二区三区观看方式| 91啪在线观看| 激情综合色播激情啊| 亚洲国产日韩av| 国产精品免费久久久久| 欧美午夜影院一区| 久久99九九| 国产精品麻豆免费版| 97超碰欧美中文字幕| 国产老妇另类xxxxx| 激情六月婷婷久久| 蜜桃精品视频在线观看| 天天爽夜夜爽夜夜爽精品视频| 欧美影院一区二区三区| 欧美日韩精品一区| 成人动漫视频在线观看完整版| 欧美大度的电影原声| 中文字幕一区二区三区四区五区六区 | 麻豆精品一区二区av白丝在线| 91久久线看在观草草青青 | 成人一区二区三区视频 | 杨幂一区欧美专区| 中文字幕av一区二区三区免费看 | 亚洲综合自拍偷拍| 精品电影一区二区| 精品日韩在线观看| 2023国产精品视频| 久久欧美中文字幕| 国产精品日韩一区二区免费视频| 最近日韩中文字幕| 欧美性xxxxx极品少妇| 亚洲人成网站在线观看播放| 婷婷亚洲婷婷综合色香五月| 亚洲精品一区二| 亚洲国产精品www| 亚洲午夜久久久影院伊人| 在线观看成人av| 日本韩国欧美在线| 中文视频一区视频二区视频三区| 午夜精品免费在线| 亚洲精品老司机| 亚洲国产日韩精品| 日本aⅴ免费视频一区二区三区| 日韩欧美成人一区| 日韩美一区二区三区| 日韩色在线观看| 色就色 综合激情| 5566中文字幕一区二区电影| 欧美xxxxx牲另类人与| 国产精品女人毛片| 天堂蜜桃91精品| 国产盗摄一区二区三区| 成人精品一二区| 色视频一区二区三区| 欧美日韩在线精品一区二区三区激情| 韩国精品一区二区三区六区色诱| 久草这里只有精品视频| 国产毛片一区二区| 韩国毛片一区二区三区| 91视频免费观看| 亚洲国产另类久久久精品极度| www.成人av| 顶级嫩模精品视频在线看| 99久久久精品免费观看国产蜜| 一区二区久久久久久| 日韩二区在线观看| 国产一区二区三区综合| 99久久精品情趣| 日韩激情视频| 久久视频在线观看中文字幕| 不卡一区中文字幕| 粉嫩高潮美女一区二区三区| 青娱乐国产91| 亚洲品质自拍视频| 99久久久精品免费观看国产 | 久久天堂国产精品| 国产精品的网站| 国产精品污www一区二区三区| 日韩一区二区精品葵司在线| 久久成人麻豆午夜电影| 色视频欧美一区二区三区| 午夜成人免费电影| 一本一生久久a久久精品综合蜜| 一区二区三区欧美| 日韩经典在线视频| 亚洲福利国产精品| 亚洲国产成人不卡| 天使萌一区二区三区免费观看| 日本在线视频不卡| 视频一区在线视频| 欧美无乱码久久久免费午夜一区 | 欧美成人一区二区三区| 国产99一区视频免费| 欧美一区二区三区啪啪| 成人中文字幕合集| 日韩写真欧美这视频| 成人激情午夜影院| 久久久亚洲高清| 久久久久久欧美精品色一二三四| 一区二区三区在线视频观看58| 亚洲一卡二卡区| 蜜臀久久99精品久久久画质超高清| 日本韩国精品一区二区在线观看| 蜜臀91精品一区二区三区| 欧美日韩一区 二区 三区 久久精品| 韩国中文字幕2020精品| 欧美成人一区二区三区在线观看| 9人人澡人人爽人人精品| 国产丝袜美腿一区二区三区| 国产aⅴ精品一区二区三区黄| 亚洲视频在线观看一区| 日韩区国产区| 久久精品av麻豆的观看方式| 日韩免费视频一区二区| 国产美女精品久久久| 亚洲成av人片| 91精品在线麻豆| av免费精品一区二区三区| 亚洲欧美另类综合偷拍| 在线亚洲一区二区| 成人app网站| 一区二区三区资源| 欧美视频日韩视频在线观看| 99re66热这里只有精品3直播| 亚洲精品免费电影| 欧美日韩一级片在线观看| 94-欧美-setu| 亚洲电影欧美电影有声小说| 欧美喷水一区二区| 国产精品一区二区欧美黑人喷潮水| 亚洲狠狠爱一区二区三区| 91麻豆精品国产91久久久使用方法| 成人欧美一区二区三区视频| 五月婷婷色综合| 26uuu国产在线精品一区二区| 日韩精品另类天天更新| 国产精品亚洲视频| 一区二区三区在线观看视频| 91麻豆精品国产91久久久久久| 好吊色欧美一区二区三区| 午夜精品视频在线观看| 欧美一区二区三区免费在线看| 欧美日韩国产综合在线| 经典三级在线一区| 中文字幕在线观看一区二区| 欧美性大战久久久久久久| 91美女片黄在线| 奇米影视一区二区三区| 26uuu另类欧美亚洲曰本| 亚洲区一区二区三区| 91麻豆精品秘密| 日韩福利电影在线观看| 中文字幕第一页久久| 欧美日韩精品一区视频| 91免费版黄色| 美日韩黄色大片| 亚洲女人****多毛耸耸8| 欧美精品日日鲁夜夜添| 日韩电影免费观看在| 99精品视频在线播放观看| 日韩精品欧美精品| 久久久亚洲精华液精华液精华液 | 91精品国产手机| 日本亚洲自拍| 国产 高清 精品 在线 a| 国产精品亚洲第一区在线暖暖韩国| 亚洲综合偷拍欧美一区色| 国产欧美一区在线| 日韩一区二区三区在线观看| 欧美做爰猛烈大尺度电影无法无天| 久久精品国产第一区二区三区最新章节 | 国产福利一区二区| 奇米影视一区二区三区小说| 综合网在线视频| 久久一区二区三区国产精品| 在线观看91av| 欧美美女直播网站| 欧美色电影在线| 亚洲一区二区三区乱码| 日韩高清国产精品| 蜜桃免费一区二区三区| 国产一区在线观|