類似手機時代廠商發布新機需要“跑個分”,如今大模型廠商發布新產品后也會通過基準測試(Benchmark)跑分對比,但隨著基礎模型的快速發展和AI Agent(智能體)進入規?;瘧秒A段,被廣泛使用的基準測試開始面臨一個日益尖銳的問題:真實反映AI的客觀能力變得越來越難。
5月26日,紅杉中國宣布推出一款全新的AI基準測試工具xbench,由紅杉中國發起,聯合國內外十余家高校和研究機構的數十位博士研究生,采用雙軌評估體系和長青評估機制。
雙軌評估體系是指構建多維度測評數據集,同時追蹤模型的理論能力上限與Agent的實際落地價值。長青評估機制是指動態的、持續更新的評估方法。此前行業模型進行榜單成績對比時,會面臨“刷榜”質疑。即靜態評估集會出現題目泄露問題,模型反復測試可以將分數“刷”上去。
xbench最早是紅杉中國在2022年ChatGPT推出后,對AGI進程和主流模型進行的內部月評與匯報工具。在建設和升級“私有題庫”的過程中,紅杉中國發現主流模型“刷爆”題目的速度越來越快,基準測試的有效時間在急劇縮短。
另外,此次相關機構同期提出垂直領域Agent的評測方法論,并構建了面向招聘與營銷領域的垂類Agent評測框架。如今Agent行業正熱,包括自主規劃、信息收集、推理分析、總結歸納在內的深度搜索能力是AI Agents通向AGI(通用人工智能)的核心能力之一,但這也給評估帶來挑戰。
AI在長文本處理、多模態、工具使用和推理方面的能力突破催化了AI Agent的爆炸式增長。與聊天機器人相比,Agent不僅可以解決單步問題,還可以交付完整任務,從而提供生產力或商業價值。有價值的AI Agent評估需要與實際任務密切相關,這已成為一種共識。一系列高質量的評估集在工具使用、計算機使用、編碼和客戶服務等領域出現,推動了Agent在這些各自領域的快速發展。然而,評估結果與 AI 在現實世界中創造經濟價值的生產力之間仍然存在差距。為了適應人工智能“下半場”的發展,構建特定領域的Agent評估集至關重要,這需要與專業領域的生產力和商業價值保持一致。
Agent本身的特性也需要考慮,Agent應用產品版本具有生命周期,本身迭代迅速,會不斷集成與開發新功能。且Agent接觸的外部環境也是動態變化的。即使是相同的題目,如果解題需要使用互聯網應用等內容快速更新的工具,在不同時間測試效果不同。因此,測試工具設計指標需要追蹤Agent能力的持續增長。
據了解,紅杉推出xbench-DeepSearch評測集今年會側重關注具有思維鏈的多模態模型能否生成商用水平視頻,MCP工具大面積使用是否具有可信度問題,GUI Agents能否有效使用動態更新/未訓練的應用三個方向。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。