,,

7月，OpenAI尚未按照此前計劃發(fā)布GPT-5，智能體方面的更新先行面世了。

北京時間7月18日凌晨，OpenAI直播發(fā)布了ChatGPT Agent，這一智能體融合了Operator智能體網(wǎng)頁交互能力以及Deep Research功能，使ChatGPT內(nèi)置計算機(jī)能幫助用戶完成復(fù)雜的多步驟任務(wù)。

“現(xiàn)在ChatGPT可以思考和行動，能主動從技能工具箱中選擇工具，完成一些任務(wù)?！監(jiān)penAI介紹，這些任務(wù)包括“查看我的日歷并根據(jù)近期新聞介紹即將舉行的會議”“分析三個競爭對手并創(chuàng)建幻燈片”等。此外，用戶還可以執(zhí)行一些重復(fù)任務(wù)，例如將屏幕截圖轉(zhuǎn)換為可編輯PPT、用新的財務(wù)數(shù)據(jù)更新電子表格、重新安排會議。

據(jù)介紹，ChatGPT的工作過程包括瀏覽網(wǎng)站、過濾結(jié)果、提醒用戶登錄相關(guān)賬號、運行賬號、分析、創(chuàng)建電子表格和幻燈片。

此前OpenAI曾單獨發(fā)布Operator和Deep Research功能，其中Operator也是一個智能體，可以滾動、點擊網(wǎng)頁，幫用戶完成餐廳預(yù)訂等任務(wù)，Deep Research則主要面向信息深度分析和整合任務(wù)。OpenAI稱，此次ChatGPT的核心更新是創(chuàng)建了一個統(tǒng)一的智能體系統(tǒng)，使Operator調(diào)動網(wǎng)站的能力、Deep Research整合信息的能力、ChatGPT對話能力融為一體。此次發(fā)布的智能體系統(tǒng)可以調(diào)用可視化瀏覽器、文本瀏覽器、終端工具、API接口，分別可用于與網(wǎng)頁交互、處理大量文本、運行代碼或下載文件、訪問GitHub等應(yīng)用數(shù)據(jù)。

從基準(zhǔn)測試表現(xiàn)看，在跨學(xué)科專家級測試Humanity’s Last Exam中，ChatGPT Agent回答準(zhǔn)確率為41.6%，超過Deep Research的26.6%、o3模型的24.9%；在數(shù)學(xué)基準(zhǔn)測試FrontierMath中，ChatGPT Agent準(zhǔn)確率為27.4%，高于o4 mini的19.3%和o3的10.3%；在針對真實知識工作任務(wù)的內(nèi)部評測中，ChatGPT Agent在約半數(shù)案例中的表現(xiàn)與人類持平或超過人類；在現(xiàn)實數(shù)據(jù)科學(xué)任務(wù)DSBench測試中，ChatGPT的分析與建模準(zhǔn)確率分別為89.9%和85.5%，超過人類水平；在衡量模型承擔(dān)一到三年投資銀行分析師建模任務(wù)能力的內(nèi)部基準(zhǔn)上，準(zhǔn)確率高于o3和Deep Research。

不過，雖然ChatGPT Agent在SpreadsheetBench測試（評估模型編輯真實場景電子表格的能力）中，表現(xiàn)超過OpenAI的其他模型，但其最高得分45.5%還是遠(yuǎn)低于人類得分71.3%。

OpenAI稱，此次更新是一個開始，公司將繼續(xù)定期迭代改進(jìn)。

Agent的能力很大程度上取決于基礎(chǔ)模型的能力。發(fā)布ChatGPT Agent后，OpenAI最受關(guān)注的更新還是推出GPT-5。此前OpenAI CEO奧爾特曼表示，GPT-5可能于今年夏天推出，OpenAI代表此前也曾透露，初步預(yù)計的發(fā)布時間是在今年7月。當(dāng)前，面對來自DeepSeek等廠商的競爭，OpenAI還是需要通過推出新的基礎(chǔ)模型來證明自身的領(lǐng)先地位。

從Agent演進(jìn)上看，有Agent開發(fā)者告訴記者，今年Agent預(yù)計可以在數(shù)十步較復(fù)雜的工具調(diào)用中，做到90%的準(zhǔn)確率，基本達(dá)到可商用狀態(tài)。但基礎(chǔ)模型的能力還是還有所欠缺，基礎(chǔ)模型還難以做到自主調(diào)用上萬個工具并自主執(zhí)行。

幫企客致力于為您提供最新最全的財經(jīng)資訊，想了解更多行業(yè)動態(tài)，歡迎關(guān)注本站。

鄭重聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如作者信息標(biāo)記有誤，請第一時間聯(lián)系我們修改或刪除，多謝。

济南不锈钢雕塑_山东玻璃钢雕塑_济南旭日设计制作公司

幣圈網(wǎng)

OpenAI發(fā)布ChatGPT Agent：部分能力超越人類，但做電子表格仍不如人類

相關(guān)文章閱讀