7月,OpenAI尚未按照此前計劃發(fā)布GPT-5,智能體方面的更新先行面世了。
北京時間7月18日凌晨,OpenAI直播發(fā)布了ChatGPT Agent,這一智能體融合了Operator智能體網(wǎng)頁交互能力以及Deep Research功能,使ChatGPT內(nèi)置計算機(jī)能幫助用戶完成復(fù)雜的多步驟任務(wù)。
“現(xiàn)在ChatGPT可以思考和行動,能主動從技能工具箱中選擇工具,完成一些任務(wù)?!監(jiān)penAI介紹,這些任務(wù)包括“查看我的日歷并根據(jù)近期新聞介紹即將舉行的會議”“分析三個競爭對手并創(chuàng)建幻燈片”等。此外,用戶還可以執(zhí)行一些重復(fù)任務(wù),例如將屏幕截圖轉(zhuǎn)換為可編輯PPT、用新的財務(wù)數(shù)據(jù)更新電子表格、重新安排會議。
據(jù)介紹,ChatGPT的工作過程包括瀏覽網(wǎng)站、過濾結(jié)果、提醒用戶登錄相關(guān)賬號、運行賬號、分析、創(chuàng)建電子表格和幻燈片。
此前OpenAI曾單獨發(fā)布Operator和Deep Research功能,其中Operator也是一個智能體,可以滾動、點擊網(wǎng)頁,幫用戶完成餐廳預(yù)訂等任務(wù),Deep Research則主要面向信息深度分析和整合任務(wù)。OpenAI稱,此次ChatGPT的核心更新是創(chuàng)建了一個統(tǒng)一的智能體系統(tǒng),使Operator調(diào)動網(wǎng)站的能力、Deep Research整合信息的能力、ChatGPT對話能力融為一體。此次發(fā)布的智能體系統(tǒng)可以調(diào)用可視化瀏覽器、文本瀏覽器、終端工具、API接口,分別可用于與網(wǎng)頁交互、處理大量文本、運行代碼或下載文件、訪問GitHub等應(yīng)用數(shù)據(jù)。
從基準(zhǔn)測試表現(xiàn)看,在跨學(xué)科專家級測試Humanity’s Last Exam中,ChatGPT Agent回答準(zhǔn)確率為41.6%,超過Deep Research的26.6%、o3模型的24.9%;在數(shù)學(xué)基準(zhǔn)測試FrontierMath中,ChatGPT Agent準(zhǔn)確率為27.4%,高于o4 mini的19.3%和o3的10.3%;在針對真實知識工作任務(wù)的內(nèi)部評測中,ChatGPT Agent在約半數(shù)案例中的表現(xiàn)與人類持平或超過人類;在現(xiàn)實數(shù)據(jù)科學(xué)任務(wù)DSBench測試中,ChatGPT的分析與建模準(zhǔn)確率分別為89.9%和85.5%,超過人類水平;在衡量模型承擔(dān)一到三年投資銀行分析師建模任務(wù)能力的內(nèi)部基準(zhǔn)上,準(zhǔn)確率高于o3和Deep Research。
不過,雖然ChatGPT Agent在SpreadsheetBench測試(評估模型編輯真實場景電子表格的能力)中,表現(xiàn)超過OpenAI的其他模型,但其最高得分45.5%還是遠(yuǎn)低于人類得分71.3%。
OpenAI稱,此次更新是一個開始,公司將繼續(xù)定期迭代改進(jìn)。
Agent的能力很大程度上取決于基礎(chǔ)模型的能力。發(fā)布ChatGPT Agent后,OpenAI最受關(guān)注的更新還是推出GPT-5。此前OpenAI CEO奧爾特曼表示,GPT-5可能于今年夏天推出,OpenAI代表此前也曾透露,初步預(yù)計的發(fā)布時間是在今年7月。當(dāng)前,面對來自DeepSeek等廠商的競爭,OpenAI還是需要通過推出新的基礎(chǔ)模型來證明自身的領(lǐng)先地位。
從Agent演進(jìn)上看,有Agent開發(fā)者告訴記者,今年Agent預(yù)計可以在數(shù)十步較復(fù)雜的工具調(diào)用中,做到90%的準(zhǔn)確率,基本達(dá)到可商用狀態(tài)。但基礎(chǔ)模型的能力還是還有所欠缺,基礎(chǔ)模型還難以做到自主調(diào)用上萬個工具并自主執(zhí)行。
幫企客致力于為您提供最新最全的財經(jīng)資訊,想了解更多行業(yè)動態(tài),歡迎關(guān)注本站。鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。