如果說 AIGC 開啟了內(nèi)容生成的智能時(shí)代,那么 AI Agent 則有機(jī)會(huì)把 AIGC 的能力真正產(chǎn)品化。
AI Agent 像一位更具象的全能員工,被稱為是人工智能機(jī)器人的初級(jí)形態(tài),能夠如同人類一般觀察周遭環(huán)境、做出決策,并自動(dòng)采取行動(dòng)。
比爾·蓋茨曾直言,“掌控 AI Agent,才是真正的成就。屆時(shí),你將不再需要親自上網(wǎng)搜索信息。”AI 領(lǐng)域的權(quán)威專家們同樣對(duì) AI Agent 的前景寄予厚望。微軟 CEO 薩提亞·納德拉曾預(yù)言,AI Agent 將成為人機(jī)交互的主要方式,能夠理解用戶需求并主動(dòng)提供服務(wù)。吳恩達(dá)教授亦預(yù)測(cè),在未來的工作環(huán)境中,人類和 AI Agent 將以更加緊密的方式協(xié)作,形成高效的工作模式,提高效率。
AI Agent 不單是技術(shù)的產(chǎn)物,更是未來生活與工作方式的核心。
這不禁讓人回想,當(dāng) Web3 和區(qū)塊鏈剛引起廣泛討論時(shí),人們也常常用"顛覆"一詞來形容這項(xiàng)技術(shù)的潛力。回顧過去幾年,Web3 從最初的 ERC-20、零知識(shí)證明,逐漸發(fā)展到了與其他領(lǐng)域相融合的 DeFi、DePIN、GameFi 等。
若將 Web3 與 AI 這兩大熱門數(shù)字科技相結(jié)合,會(huì)不會(huì)產(chǎn)生 1 1>2 的效果呢?融資規(guī)模越來越龐大的Web3 AI 項(xiàng)目,能否為行業(yè)帶來新的用例范式,創(chuàng)造新的真實(shí)需求?
AI Agent:人類最理想的智能助手AI Agent 的想象力到底在哪里?網(wǎng)上盛傳一個(gè)高分答案,“大語言模型只能編個(gè)貪吃蛇,而 AI Agent 可以編出一整個(gè)王者榮耀。”聽起來很夸張,但并未言過其實(shí)。
Agent,國(guó)內(nèi)通常翻譯為“智體”。這一概念由“人工智能之父” Minsky 在 1986 年出版的《思維的社會(huì)》一書中提出,Minsky 認(rèn)為社會(huì)中的某些個(gè)體經(jīng)過協(xié)商之后可得出某一問題的解,這些個(gè)體就是 Agent。多年來,Agent 一直是人機(jī)交互的基石,從微軟的剪輯助手 Clippy 到 Google Docs 的自動(dòng)建議,這些早期形態(tài)的 Agent 表現(xiàn)出了個(gè)性化交互的潛力,但在處理更復(fù)雜任務(wù)方面能力仍然有限。直到大語言模型(LLM)的出現(xiàn),Agent 的真正潛力才得以被挖掘。
今年 5 月,AI 領(lǐng)域權(quán)威學(xué)者吳恩達(dá)教授在美國(guó)紅杉 AI 活動(dòng)上分享了關(guān)于 AI Agent 的演講,在其中,他展示了其團(tuán)隊(duì)做的一系列實(shí)驗(yàn):
讓 AI 去寫一些代碼并運(yùn)行,對(duì)比不同 LLM 和工作流程得出的結(jié)果。結(jié)果如下:
GPT-3.5 模型:準(zhǔn)確率 48%
GPT-4 模型:準(zhǔn)確率 67%
GPT-3.5 Agent:高于 GPT-4 模型的表現(xiàn)
GPT-4 Agent:遠(yuǎn)高于 GPT-4 模型,非常出色
的確。大多數(shù)人在使用 ChatGPT 這種 LLM 時(shí),方式通常是:輸入一段提示詞,大模型會(huì)立即生成答案,不會(huì)自動(dòng)識(shí)別和糾正錯(cuò)誤刪除重寫。
相比之下,AI Agent 工作流程是這樣的:
首先,先讓 LLM 寫一個(gè)文章大綱,如有必要,先在互聯(lián)網(wǎng)上搜索內(nèi)容進(jìn)行調(diào)研分析,輸出初稿,然后閱讀草稿并思考如何優(yōu)化,如此循環(huán)往復(fù)、多次迭代,最終輸出一篇邏輯嚴(yán)謹(jǐn)、錯(cuò)誤率最低的高質(zhì)量文章。
我們可以發(fā)現(xiàn),AI Agent 與 LLM 的區(qū)別在于,LLM 與人類之間的交互基于提示詞(prompt)進(jìn)行。而 AI Agent 僅需設(shè)定一個(gè)目標(biāo),它就能夠針對(duì)目標(biāo)獨(dú)立思考并做出行動(dòng)。根據(jù)給定任務(wù)詳細(xì)拆解出每一步的計(jì)劃步驟,依靠來自外界的反饋和自主思考,自己給自己創(chuàng)建 prompt,來實(shí)現(xiàn)目標(biāo)。
因此 OpenAI 對(duì) AI Agent 的定義是:以 LLM 為大腦驅(qū)動(dòng),具有自主理解感知、規(guī)劃、記憶和使用工具的能力,能自動(dòng)化執(zhí)行完成復(fù)雜任務(wù)的系統(tǒng)。
當(dāng) AI 從被使用的工具變成可以使用工具的主體,就成為了 AI Agent。這也正是 AI Agent 可以成為人類最理想智能助手的原因所在。例如,AI Agent 能夠基于用戶歷史線上互動(dòng),了解并記憶用戶的興趣、偏好、日常習(xí)慣,識(shí)別用戶的意圖,主動(dòng)提出建議,并協(xié)調(diào)多個(gè)應(yīng)用程序去完成任務(wù)。
就如同在蓋茨的構(gòu)想中,未來我們不再需要為不同的任務(wù)切換到不同的應(yīng)用中,只需用平常的語言告訴電腦和手機(jī)想做什么,根據(jù)用戶愿意共享的數(shù)據(jù),AI Agent 將提供個(gè)性化的響應(yīng)。
單人獨(dú)角獸公司正在成為現(xiàn)實(shí)AI Agent 還能夠幫助企業(yè)打造以“人機(jī)協(xié)同”為核心的智能化運(yùn)營(yíng)新模式。越來越多的業(yè)務(wù)活動(dòng)將交由 AI 來完成,而人類則只需要聚焦于企業(yè)愿景、戰(zhàn)略和關(guān)鍵路徑的決策上。
就像 OpenAI 首席執(zhí)行官 Sam Altman 曾在采訪中提到過這樣一個(gè)引人注目的觀點(diǎn),隨著 AI 的發(fā)展,我們即將進(jìn)入“單人獨(dú)角獸”時(shí)代,即由單人創(chuàng)辦并達(dá)到 10 億美元估值的公司。
聽起來天方夜譚,但在 AI Agent 的助力下,這個(gè)觀點(diǎn)正在成為現(xiàn)實(shí)。
不妨做個(gè)假設(shè),現(xiàn)在我們要?jiǎng)?chuàng)辦一家科技初創(chuàng)公司。按照傳統(tǒng)方法,顯然我需要雇傭軟件工程師、產(chǎn)品經(jīng)理、設(shè)計(jì)師、營(yíng)銷人員、銷售和財(cái)務(wù)人員,各司其職但都由我來協(xié)調(diào)。
那么如果使用 AI Agent 呢,我可能甚至都不需要雇傭員工。
Devin — 自動(dòng)化編程
替代軟件工程師,我可能會(huì)使用今年爆火的 AI 軟件工程師 Devin,它能幫我完成所有前端和后端的工作。
Devin 由 Cognition Labs 開發(fā),被稱為是“世界上第一個(gè) AI 軟件工程師”。它能夠獨(dú)立完成整個(gè)軟件開發(fā)工作,獨(dú)立分析問題、做出決策、編寫代碼并修復(fù)錯(cuò)誤,均可自主執(zhí)行。大大減輕了開發(fā)人員的工作負(fù)擔(dān)。Devin 在短短半年內(nèi)就獲得了 1.96 億美元的融資,估值迅速飆升至數(shù)十億美元,投資方包括 Founders Fund、Khosla Ventures 等知名風(fēng)險(xiǎn)投資公司。
雖然 Devin 仍未推出公開版本,但我們可以從另一個(gè)最近爆火 Web2 的產(chǎn)品 Cursor 一窺潛力。它幾乎可以為你完成所有工作,將一個(gè)簡(jiǎn)單的想法在幾分鐘內(nèi)轉(zhuǎn)化為功能性代碼,你只需要發(fā)號(hào)施令,就能「坐享其成」。有報(bào)道稱,一個(gè)八歲的孩子,在沒有任何編程經(jīng)驗(yàn)的情況下,居然使用 Cursor 完成代碼工作并建起了一個(gè)網(wǎng)站。
Hebbia — 文件處理
替代產(chǎn)品經(jīng)理或財(cái)務(wù)人員,我可能會(huì)選擇 Hebbia,它能幫我完成所有文檔的整理和分析。
與 Glean 側(cè)重企業(yè)內(nèi)文檔搜索不同,Hebbia Matrix 是一個(gè)企業(yè)級(jí)的 AI Agent 平臺(tái),借助多個(gè) AI 模型,幫助用戶高效地提取、結(jié)構(gòu)化、分析數(shù)據(jù)和文檔,從而推動(dòng)企業(yè)生產(chǎn)力的提高。令人印象深刻的是,Matrix 能一次性處理多大數(shù)百萬份文檔。
Hebbia 在今年 7 月完成了 1.3 億美元 B 輪,a16z 領(lǐng)投,Google Ventures、Peter Thiel 等知名投資者參投。
Jasper AI — 內(nèi)容生成
替代社媒運(yùn)營(yíng)和設(shè)計(jì)師,我可能會(huì)選擇 Jasper AI,它能幫我完成內(nèi)容的生成。
Jasper AI 是一個(gè) AI Agent 寫作助手,旨在幫助創(chuàng)作者、營(yíng)銷人員和企業(yè)簡(jiǎn)化內(nèi)容生成流程,提高生產(chǎn)力和創(chuàng)作效率。Jasper AI 能夠根據(jù)用戶要求的風(fēng)格生成多種類型的內(nèi)容,包括博客文章、社交媒體帖子、廣告文案和產(chǎn)品描述等。并根據(jù)用戶的描述生成圖片,為文本內(nèi)容提供視覺輔助。
Jasper AI 已獲得 1.25 億美元的融資,并在 2022 年達(dá)到了 15 億美元的估值。根據(jù)統(tǒng)計(jì)數(shù)據(jù),Jasper AI 已幫助用戶生成超過 5 億個(gè)單詞,成為使用最廣泛的 AI 寫作工具之一。
MultiOn — 網(wǎng)頁(yè)自動(dòng)化操作
替代助理,我可能會(huì)選擇 MultiOn,幫我管理日常任務(wù)、安排日程、設(shè)置提醒,甚至是規(guī)劃出差行程,自動(dòng)預(yù)訂酒店,自動(dòng)安排網(wǎng)約車。
MultiOn 是一個(gè)自動(dòng)化的網(wǎng)絡(luò)任務(wù) AI 代理,能夠幫助在任何數(shù)字環(huán)境中自主執(zhí)行任務(wù),例如幫助用戶完成在線購(gòu)物、預(yù)約等個(gè)人任務(wù),提升個(gè)人效率,或幫助用戶簡(jiǎn)化日常事務(wù),提高工作效率。
Perplexity — 搜索、研究
替代研究員,我可能會(huì)選擇英偉達(dá) CEO 都在每天使用的 Perplexity。
Perplexity 是一個(gè) AI 搜索引擎,能夠理解用戶的提問,拆分問題,然后搜索和整合內(nèi)容,生成報(bào)告,以向用戶提供清晰的答案。
Perplexity 適用于各類用戶群體,例如學(xué)生和研究人員可以簡(jiǎn)化寫作時(shí)的信息檢索流程,提高效率;營(yíng)銷人員可以獲取可靠數(shù)據(jù)支持營(yíng)銷策略。
以上內(nèi)容僅為想象,當(dāng)下這些 AI Agent 的真正能力和水平尚不足以替代各行各業(yè)中的精英人才。正如 Logenic AI 聯(lián)合創(chuàng)始人李博杰所言,目前 LLM 的能力還只是入門級(jí)水平,遠(yuǎn)遠(yuǎn)達(dá)不到專家級(jí),現(xiàn)階段的 AI Agent 更像是一個(gè)干活比較快但不太可靠的員工。
然而,這些 AI Agent 憑借各自的特長(zhǎng),正在助力現(xiàn)有用戶在多樣化場(chǎng)景中提高效率和便利性。
不僅僅限于科技公司,各行各業(yè)都可以在 AI Agent 的浪潮中獲得益處。在教育領(lǐng)域,AI Agent 可以根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度、興趣和能力提供個(gè)性化的學(xué)習(xí)資源和輔導(dǎo);在金融領(lǐng)域,AI Agent 可以幫助用戶管理個(gè)人財(cái)務(wù),提供投資建議,甚至預(yù)測(cè)股票走勢(shì);在醫(yī)療領(lǐng)域,AI Agent 可以幫助醫(yī)生進(jìn)行疾病診斷和治療方案的制定;在電商領(lǐng)域,AI Agent 還可以作為智能客服,通過自然語言處理和機(jī)器學(xué)習(xí)技術(shù)自動(dòng)回答用戶咨詢,處理訂單問題和退貨請(qǐng)求,以此提高客戶服務(wù)效率。
Multi-Agent:AI Agent 的下一步在上一節(jié)關(guān)于單人獨(dú)角獸公司的設(shè)想中,單一的 AI Agent 在處理復(fù)雜任務(wù)時(shí)面臨著局限性,難以滿足實(shí)際需求。而運(yùn)用多個(gè) AI Agent 時(shí),由于這些 AI Agent 基于異構(gòu) LLM,集體決策困難,能力有限,以至于還需要人類充當(dāng)這些獨(dú)立 AI Agent 之間的調(diào)度員,協(xié)調(diào)這些服務(wù)于不同應(yīng)用場(chǎng)景的 AI Agent 去工作。這便催生了“Multi Agent(多智體框架)”的興起。
復(fù)雜問題往往需要融合多方面的知識(shí)和技能,而單個(gè) AI Agent 的能力有限,難以勝任。通過將不同能力的 AI Agent 進(jìn)行有機(jī)組合,Multi-Agent 系統(tǒng)可以讓 AI Agent 發(fā)揮各自的長(zhǎng)處,取長(zhǎng)補(bǔ)短,從而更有效地解決復(fù)雜問題。
這非常類似于我們實(shí)際中的工作流程或組織結(jié)構(gòu):由一個(gè)領(lǐng)導(dǎo)者分配任務(wù),擁有不同能力的人,負(fù)責(zé)不同的任務(wù),每個(gè)工序執(zhí)行的結(jié)果給到下一個(gè)工序,最終得到最后的任務(wù)成果。
在實(shí)現(xiàn)過程上,由較低級(jí)別 AI Agent 執(zhí)行各自的任務(wù),而由級(jí)別較高的 AI Agent 分配任務(wù),并對(duì)它們的完成情況進(jìn)行監(jiān)督。
Multi-Agent 還能模擬我們?nèi)祟惖臎Q策過程,就像我們遇到問題時(shí)會(huì)找人商量一樣,多個(gè) AI Agent 也可以模擬集體決策的行為,為我們提供更好的信息支持。例如由微軟開發(fā)的 AutoGen 就滿足了這一點(diǎn):
能夠創(chuàng)建不同角色的 AI Agent。這些 AI Agent 具有基本的對(duì)話能力,能夠根據(jù)接收到的消息,生成回復(fù)。
通過 GroupChat 來創(chuàng)建由多個(gè) AI Agent 參與的群聊環(huán)境,在這個(gè) GroupChat 有一個(gè)管理員角色的 AI Agent 管理其他 AI Agent 的聊天記錄、發(fā)言者順序、終止發(fā)言等。
如果應(yīng)用到單人獨(dú)角獸公司的設(shè)想里,我們可以通過 Multi-Agent 架構(gòu)創(chuàng)建幾個(gè)不同角色的 AI Agent,比如項(xiàng)目經(jīng)理、程序員或者主管。把我們的目標(biāo)告訴它們,讓它們?nèi)我馊ハ朕k法,我們只要在一旁聽匯報(bào),如果覺得有意見或者它們做得不對(duì)的地方,就讓它們改,直到滿意為止。
相比單一的 AI Agent,Multi-Agent 可以實(shí)現(xiàn):
可擴(kuò)展性:通過增加 AI Agent 的數(shù)量來處理更大規(guī)模的問題,每個(gè) AI Agent 處理任務(wù)的一部分,使得系統(tǒng)能夠隨著需求的增長(zhǎng)而擴(kuò)展。
并行性:天然支持并行處理,多個(gè) AI Agent 可以同時(shí)在問題的不同部分上工作,從而加速了問題解決。
決策改進(jìn):通過聚合多個(gè) AI Agent 的洞察力來增強(qiáng)決策制定,因?yàn)槊總€(gè) AI Agent 都有自己的視角和專業(yè)知識(shí)。
隨著 AI 技術(shù)的不斷進(jìn)步,可以想象 Multi-Agent 框架將在更多行業(yè)發(fā)揮更大的作用,并推動(dòng) AI 驅(qū)動(dòng)的各類新解決方案的發(fā)展。
AI Agent 之風(fēng),吹向 Web3邁出實(shí)驗(yàn)室,AI Agent 和 Multi-Agent 道阻且長(zhǎng)。
暫且不論 Multi-Agent,即便是當(dāng)下最先進(jìn)的單一 AI Agent ,其需要的算力資源和計(jì)算能力在物理層面仍有明確的上限,無法做到無限擴(kuò)展。一旦面臨極其錯(cuò)綜復(fù)雜、計(jì)算量密集的任務(wù),AI Agent 無疑將會(huì)遭遇算力瓶頸,性能大打折扣。
再者,AI Agent 和 Multi-Agent 系統(tǒng)本質(zhì)上是一種集中式的架構(gòu)模式,這決定了它存在著極高的單一故障風(fēng)險(xiǎn)。更重要的是,OpenAI、微軟、谷歌等公司基于閉源大模型的壟斷商業(yè)模式,嚴(yán)重威脅獨(dú)立、單一的 AI Agent 創(chuàng)業(yè)公司的生存環(huán)境,使得 AI Agent 無法順利利用龐大的企業(yè)私有數(shù)據(jù)來使它們變得更聰明、更有效率。AI Agent 之間亟需民主化的協(xié)作環(huán)境,使得真正有價(jià)值的 AI Agent 得以服務(wù)更廣闊的需求人群,為社會(huì)創(chuàng)造更大的價(jià)值。
最后,雖然與 LLM 相比,AI Agent 更貼近產(chǎn)業(yè),但其發(fā)展基于 LLM,而當(dāng)前大模型賽道的特點(diǎn)是技術(shù)門檻高、資金投入多、商業(yè)模式尚且發(fā)展不成熟,AI Agent 通常很難獲得融資以持續(xù)更新迭代。
Multi-Agent 的范式是 Web3 助力 AI 的絕佳角度,已經(jīng)有不少 Web3 開發(fā)團(tuán)隊(duì)正在這些方面投入研發(fā)提供解決方案。
AI Agent 和 Multi-Agent 系統(tǒng)通常需要大量的計(jì)算資源來進(jìn)行復(fù)雜的決策和處理任務(wù)。Web3 通過區(qū)塊鏈和去中心化技術(shù),可以構(gòu)建去中心化的算力市場(chǎng),使得算力資源可以在全球范圍內(nèi)更加公平和高效地分配和利用。Akash、Nosana、Aethir、 IO.net 等 Web3 項(xiàng)目可以對(duì) AI Agent 決策和推理提供計(jì)算能力。
傳統(tǒng)的 AI 系統(tǒng)往往是集中式管理,導(dǎo)致 AI Agent 面臨單點(diǎn)故障和數(shù)據(jù)隱私問題,Web3 的去中心化特性可以使得 Multi-Agent 系統(tǒng)更加分散和自治,每個(gè) AI Agent 可以獨(dú)立地運(yùn)行在不同的節(jié)點(diǎn)上,自主執(zhí)行用戶提出的需求,增強(qiáng)了魯棒性和安全性。通過 PoS、DPoS 等機(jī)制建立針對(duì)質(zhì)押者、委托者的激勵(lì)懲罰機(jī)制,可以促進(jìn)單一 AI Agent 或 Multi-Agent 系統(tǒng)的民主化。
在這方面,GaiaNet、Theoriq、PIN AI、HajimeAI 都有非常前沿的嘗試。
Theoriq 是一個(gè)服務(wù)于“AI for Web3”的項(xiàng)目,希望通過 Agentic Protocol 建立 AI Agents 的調(diào)用和經(jīng)濟(jì)系統(tǒng),普及 Web3 的開發(fā)和許多功能性場(chǎng)景,為 Web3 dApp 提供可驗(yàn)證的模型推理能力。
GaiaNet 以節(jié)點(diǎn)為基礎(chǔ)的 AI Agent 創(chuàng)建和部署環(huán)境,以保護(hù)專家、用戶的知識(shí)產(chǎn)權(quán)與數(shù)據(jù)隱私為出發(fā)點(diǎn),抗衡中心化的 OpenAI GPT Store。
HajimeAI 則在兩者基礎(chǔ)上發(fā)力 AI Agent 工作流在實(shí)際需求中的建立和針對(duì)意圖本身的智能化、自動(dòng)化,呼應(yīng) PIN AI 提到的“AI 智能的個(gè)性化”。
同時(shí),Modulus Labs 與 ORA Protocol 分別在 AI Agent 的 zkML 和 opML 的算法方向取得了進(jìn)展。
最后,AI Agent 和 Multi-Agent 系統(tǒng)的開發(fā)和迭代往往需要大量的資金支持,而 Web3 可以通過前置流動(dòng)性的特點(diǎn)幫助有潛力的 AI Agent 項(xiàng)目獲取寶貴的早期支持。
Spectral 和 HajimeAI 均提出了支持發(fā)行鏈上 AI Agent 資產(chǎn)的產(chǎn)品構(gòu)想:通過 IAO(Initial Agent Offering)發(fā)行代幣,AI Agent 可以直接從投資者獲得資金,同時(shí)成為 DAO 治理的一員,為投資者提供參與項(xiàng)目發(fā)展和分享未來收益的機(jī)會(huì)。其中 HajimeAI 的 Benchmark DAO 希望通過眾籌加代幣激勵(lì)的方式,將去中心化的 AI Agent 評(píng)分和 AI Agent 資產(chǎn)發(fā)行有機(jī)結(jié)合起來,打造 AI Agent 依托 Web3 融資和冷啟動(dòng)的閉環(huán),也是比較新穎的嘗試。
AI 潘多拉魔盒已然開啟,置身其中的每個(gè)人既興奮又迷茫,熱潮下是機(jī)遇還是暗礁,無人知曉。如今,各行各業(yè)都已不再是 PPT 融資時(shí)代,無論多么前沿的技術(shù),也只有落地才能實(shí)現(xiàn)價(jià)值。AI Agent 的未來注定是一場(chǎng)漫長(zhǎng)的馬拉松, 而 Web3 正確保它不會(huì)在這場(chǎng)競(jìng)賽中黯然退場(chǎng)。
GPT-3.5 模型:準(zhǔn)確率 48%
GPT-4 模型:準(zhǔn)確率 67%
GPT-3.5 Agent:高于 GPT-4 模型的表現(xiàn)
GPT-4 Agent:遠(yuǎn)高于 GPT-4 模型,非常出色
的確。大多數(shù)人在使用 ChatGPT 這種 LLM 時(shí),方式通常是:輸入一段提示詞,大模型會(huì)立即生成答案,不會(huì)自動(dòng)識(shí)別和糾正錯(cuò)誤刪除重寫。
相比之下,AI Agent 工作流程是這樣的:
首先,先讓 LLM 寫一個(gè)文章大綱,如有必要,先在互聯(lián)網(wǎng)上搜索內(nèi)容進(jìn)行調(diào)研分析,輸出初稿,然后閱讀草稿并思考如何優(yōu)化,如此循環(huán)往復(fù)、多次迭代,最終輸出一篇邏輯嚴(yán)謹(jǐn)、錯(cuò)誤率最低的高質(zhì)量文章。
我們可以發(fā)現(xiàn),AI Agent 與 LLM 的區(qū)別在于,LLM 與人類之間的交互基于提示詞(prompt)進(jìn)行。而 AI Agent 僅需設(shè)定一個(gè)目標(biāo),它就能夠針對(duì)目標(biāo)獨(dú)立思考并做出行動(dòng)。根據(jù)給定任務(wù)詳細(xì)拆解出每一步的計(jì)劃步驟,依靠來自外界的反饋和自主思考,自己給自己創(chuàng)建 prompt,來實(shí)現(xiàn)目標(biāo)。
因此 OpenAI 對(duì) AI Agent 的定義是:以 LLM 為大腦驅(qū)動(dòng),具有自主理解感知、規(guī)劃、記憶和使用工具的能力,能自動(dòng)化執(zhí)行完成復(fù)雜任務(wù)的系統(tǒng)。
當(dāng) AI 從被使用的工具變成可以使用工具的主體,就成為了 AI Agent。這也正是 AI Agent 可以成為人類最理想智能助手的原因所在。例如,AI Agent 能夠基于用戶歷史線上互動(dòng),了解并記憶用戶的興趣、偏好、日常習(xí)慣,識(shí)別用戶的意圖,主動(dòng)提出建議,并協(xié)調(diào)多個(gè)應(yīng)用程序去完成任務(wù)。
就如同在蓋茨的構(gòu)想中,未來我們不再需要為不同的任務(wù)切換到不同的應(yīng)用中,只需用平常的語言告訴電腦和手機(jī)想做什么,根據(jù)用戶愿意共享的數(shù)據(jù),AI Agent 將提供個(gè)性化的響應(yīng)。
單人獨(dú)角獸公司正在成為現(xiàn)實(shí)AI Agent 還能夠幫助企業(yè)打造以“人機(jī)協(xié)同”為核心的智能化運(yùn)營(yíng)新模式。越來越多的業(yè)務(wù)活動(dòng)將交由 AI 來完成,而人類則只需要聚焦于企業(yè)愿景、戰(zhàn)略和關(guān)鍵路徑的決策上。
就像 OpenAI 首席執(zhí)行官 Sam Altman 曾在采訪中提到過這樣一個(gè)引人注目的觀點(diǎn),隨著 AI 的發(fā)展,我們即將進(jìn)入“單人獨(dú)角獸”時(shí)代,即由單人創(chuàng)辦并達(dá)到 10 億美元估值的公司。
聽起來天方夜譚,但在 AI Agent 的助力下,這個(gè)觀點(diǎn)正在成為現(xiàn)實(shí)。
不妨做個(gè)假設(shè),現(xiàn)在我們要?jiǎng)?chuàng)辦一家科技初創(chuàng)公司。按照傳統(tǒng)方法,顯然我需要雇傭軟件工程師、產(chǎn)品經(jīng)理、設(shè)計(jì)師、營(yíng)銷人員、銷售和財(cái)務(wù)人員,各司其職但都由我來協(xié)調(diào)。
那么如果使用 AI Agent 呢,我可能甚至都不需要雇傭員工。
Devin — 自動(dòng)化編程
替代軟件工程師,我可能會(huì)使用今年爆火的 AI 軟件工程師 Devin,它能幫我完成所有前端和后端的工作。
Devin 由 Cognition Labs 開發(fā),被稱為是“世界上第一個(gè) AI 軟件工程師”。它能夠獨(dú)立完成整個(gè)軟件開發(fā)工作,獨(dú)立分析問題、做出決策、編寫代碼并修復(fù)錯(cuò)誤,均可自主執(zhí)行。大大減輕了開發(fā)人員的工作負(fù)擔(dān)。Devin 在短短半年內(nèi)就獲得了 1.96 億美元的融資,估值迅速飆升至數(shù)十億美元,投資方包括 Founders Fund、Khosla Ventures 等知名風(fēng)險(xiǎn)投資公司。
雖然 Devin 仍未推出公開版本,但我們可以從另一個(gè)最近爆火 Web2 的產(chǎn)品 Cursor 一窺潛力。它幾乎可以為你完成所有工作,將一個(gè)簡(jiǎn)單的想法在幾分鐘內(nèi)轉(zhuǎn)化為功能性代碼,你只需要發(fā)號(hào)施令,就能「坐享其成」。有報(bào)道稱,一個(gè)八歲的孩子,在沒有任何編程經(jīng)驗(yàn)的情況下,居然使用 Cursor 完成代碼工作并建起了一個(gè)網(wǎng)站。
Hebbia — 文件處理
替代產(chǎn)品經(jīng)理或財(cái)務(wù)人員,我可能會(huì)選擇 Hebbia,它能幫我完成所有文檔的整理和分析。
與 Glean 側(cè)重企業(yè)內(nèi)文檔搜索不同,Hebbia Matrix 是一個(gè)企業(yè)級(jí)的 AI Agent 平臺(tái),借助多個(gè) AI 模型,幫助用戶高效地提取、結(jié)構(gòu)化、分析數(shù)據(jù)和文檔,從而推動(dòng)企業(yè)生產(chǎn)力的提高。令人印象深刻的是,Matrix 能一次性處理多大數(shù)百萬份文檔。
Hebbia 在今年 7 月完成了 1.3 億美元 B 輪,a16z 領(lǐng)投,Google Ventures、Peter Thiel 等知名投資者參投。
Jasper AI — 內(nèi)容生成
替代社媒運(yùn)營(yíng)和設(shè)計(jì)師,我可能會(huì)選擇 Jasper AI,它能幫我完成內(nèi)容的生成。
Jasper AI 是一個(gè) AI Agent 寫作助手,旨在幫助創(chuàng)作者、營(yíng)銷人員和企業(yè)簡(jiǎn)化內(nèi)容生成流程,提高生產(chǎn)力和創(chuàng)作效率。Jasper AI 能夠根據(jù)用戶要求的風(fēng)格生成多種類型的內(nèi)容,包括博客文章、社交媒體帖子、廣告文案和產(chǎn)品描述等。并根據(jù)用戶的描述生成圖片,為文本內(nèi)容提供視覺輔助。
Jasper AI 已獲得 1.25 億美元的融資,并在 2022 年達(dá)到了 15 億美元的估值。根據(jù)統(tǒng)計(jì)數(shù)據(jù),Jasper AI 已幫助用戶生成超過 5 億個(gè)單詞,成為使用最廣泛的 AI 寫作工具之一。
MultiOn — 網(wǎng)頁(yè)自動(dòng)化操作
替代助理,我可能會(huì)選擇 MultiOn,幫我管理日常任務(wù)、安排日程、設(shè)置提醒,甚至是規(guī)劃出差行程,自動(dòng)預(yù)訂酒店,自動(dòng)安排網(wǎng)約車。
MultiOn 是一個(gè)自動(dòng)化的網(wǎng)絡(luò)任務(wù) AI 代理,能夠幫助在任何數(shù)字環(huán)境中自主執(zhí)行任務(wù),例如幫助用戶完成在線購(gòu)物、預(yù)約等個(gè)人任務(wù),提升個(gè)人效率,或幫助用戶簡(jiǎn)化日常事務(wù),提高工作效率。
Perplexity — 搜索、研究
替代研究員,我可能會(huì)選擇英偉達(dá) CEO 都在每天使用的 Perplexity。
Perplexity 是一個(gè) AI 搜索引擎,能夠理解用戶的提問,拆分問題,然后搜索和整合內(nèi)容,生成報(bào)告,以向用戶提供清晰的答案。
Perplexity 適用于各類用戶群體,例如學(xué)生和研究人員可以簡(jiǎn)化寫作時(shí)的信息檢索流程,提高效率;營(yíng)銷人員可以獲取可靠數(shù)據(jù)支持營(yíng)銷策略。
以上內(nèi)容僅為想象,當(dāng)下這些 AI Agent 的真正能力和水平尚不足以替代各行各業(yè)中的精英人才。正如 Logenic AI 聯(lián)合創(chuàng)始人李博杰所言,目前 LLM 的能力還只是入門級(jí)水平,遠(yuǎn)遠(yuǎn)達(dá)不到專家級(jí),現(xiàn)階段的 AI Agent 更像是一個(gè)干活比較快但不太可靠的員工。
然而,這些 AI Agent 憑借各自的特長(zhǎng),正在助力現(xiàn)有用戶在多樣化場(chǎng)景中提高效率和便利性。
不僅僅限于科技公司,各行各業(yè)都可以在 AI Agent 的浪潮中獲得益處。在教育領(lǐng)域,AI Agent 可以根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度、興趣和能力提供個(gè)性化的學(xué)習(xí)資源和輔導(dǎo);在金融領(lǐng)域,AI Agent 可以幫助用戶管理個(gè)人財(cái)務(wù),提供投資建議,甚至預(yù)測(cè)股票走勢(shì);在醫(yī)療領(lǐng)域,AI Agent 可以幫助醫(yī)生進(jìn)行疾病診斷和治療方案的制定;在電商領(lǐng)域,AI Agent 還可以作為智能客服,通過自然語言處理和機(jī)器學(xué)習(xí)技術(shù)自動(dòng)回答用戶咨詢,處理訂單問題和退貨請(qǐng)求,以此提高客戶服務(wù)效率。
Multi-Agent:AI Agent 的下一步在上一節(jié)關(guān)于單人獨(dú)角獸公司的設(shè)想中,單一的 AI Agent 在處理復(fù)雜任務(wù)時(shí)面臨著局限性,難以滿足實(shí)際需求。而運(yùn)用多個(gè) AI Agent 時(shí),由于這些 AI Agent 基于異構(gòu) LLM,集體決策困難,能力有限,以至于還需要人類充當(dāng)這些獨(dú)立 AI Agent 之間的調(diào)度員,協(xié)調(diào)這些服務(wù)于不同應(yīng)用場(chǎng)景的 AI Agent 去工作。這便催生了“Multi Agent(多智體框架)”的興起。
復(fù)雜問題往往需要融合多方面的知識(shí)和技能,而單個(gè) AI Agent 的能力有限,難以勝任。通過將不同能力的 AI Agent 進(jìn)行有機(jī)組合,Multi-Agent 系統(tǒng)可以讓 AI Agent 發(fā)揮各自的長(zhǎng)處,取長(zhǎng)補(bǔ)短,從而更有效地解決復(fù)雜問題。
這非常類似于我們實(shí)際中的工作流程或組織結(jié)構(gòu):由一個(gè)領(lǐng)導(dǎo)者分配任務(wù),擁有不同能力的人,負(fù)責(zé)不同的任務(wù),每個(gè)工序執(zhí)行的結(jié)果給到下一個(gè)工序,最終得到最后的任務(wù)成果。
在實(shí)現(xiàn)過程上,由較低級(jí)別 AI Agent 執(zhí)行各自的任務(wù),而由級(jí)別較高的 AI Agent 分配任務(wù),并對(duì)它們的完成情況進(jìn)行監(jiān)督。
Multi-Agent 還能模擬我們?nèi)祟惖臎Q策過程,就像我們遇到問題時(shí)會(huì)找人商量一樣,多個(gè) AI Agent 也可以模擬集體決策的行為,為我們提供更好的信息支持。例如由微軟開發(fā)的 AutoGen 就滿足了這一點(diǎn):
能夠創(chuàng)建不同角色的 AI Agent。這些 AI Agent 具有基本的對(duì)話能力,能夠根據(jù)接收到的消息,生成回復(fù)。
通過 GroupChat 來創(chuàng)建由多個(gè) AI Agent 參與的群聊環(huán)境,在這個(gè) GroupChat 有一個(gè)管理員角色的 AI Agent 管理其他 AI Agent 的聊天記錄、發(fā)言者順序、終止發(fā)言等。
如果應(yīng)用到單人獨(dú)角獸公司的設(shè)想里,我們可以通過 Multi-Agent 架構(gòu)創(chuàng)建幾個(gè)不同角色的 AI Agent,比如項(xiàng)目經(jīng)理、程序員或者主管。把我們的目標(biāo)告訴它們,讓它們?nèi)我馊ハ朕k法,我們只要在一旁聽匯報(bào),如果覺得有意見或者它們做得不對(duì)的地方,就讓它們改,直到滿意為止。
相比單一的 AI Agent,Multi-Agent 可以實(shí)現(xiàn):
可擴(kuò)展性:通過增加 AI Agent 的數(shù)量來處理更大規(guī)模的問題,每個(gè) AI Agent 處理任務(wù)的一部分,使得系統(tǒng)能夠隨著需求的增長(zhǎng)而擴(kuò)展。
并行性:天然支持并行處理,多個(gè) AI Agent 可以同時(shí)在問題的不同部分上工作,從而加速了問題解決。
決策改進(jìn):通過聚合多個(gè) AI Agent 的洞察力來增強(qiáng)決策制定,因?yàn)槊總€(gè) AI Agent 都有自己的視角和專業(yè)知識(shí)。
隨著 AI 技術(shù)的不斷進(jìn)步,可以想象 Multi-Agent 框架將在更多行業(yè)發(fā)揮更大的作用,并推動(dòng) AI 驅(qū)動(dòng)的各類新解決方案的發(fā)展。
AI Agent 之風(fēng),吹向 Web3邁出實(shí)驗(yàn)室,AI Agent 和 Multi-Agent 道阻且長(zhǎng)。
暫且不論 Multi-Agent,即便是當(dāng)下最先進(jìn)的單一 AI Agent ,其需要的算力資源和計(jì)算能力在物理層面仍有明確的上限,無法做到無限擴(kuò)展。一旦面臨極其錯(cuò)綜復(fù)雜、計(jì)算量密集的任務(wù),AI Agent 無疑將會(huì)遭遇算力瓶頸,性能大打折扣。
再者,AI Agent 和 Multi-Agent 系統(tǒng)本質(zhì)上是一種集中式的架構(gòu)模式,這決定了它存在著極高的單一故障風(fēng)險(xiǎn)。更重要的是,OpenAI、微軟、谷歌等公司基于閉源大模型的壟斷商業(yè)模式,嚴(yán)重威脅獨(dú)立、單一的 AI Agent 創(chuàng)業(yè)公司的生存環(huán)境,使得 AI Agent 無法順利利用龐大的企業(yè)私有數(shù)據(jù)來使它們變得更聰明、更有效率。AI Agent 之間亟需民主化的協(xié)作環(huán)境,使得真正有價(jià)值的 AI Agent 得以服務(wù)更廣闊的需求人群,為社會(huì)創(chuàng)造更大的價(jià)值。
最后,雖然與 LLM 相比,AI Agent 更貼近產(chǎn)業(yè),但其發(fā)展基于 LLM,而當(dāng)前大模型賽道的特點(diǎn)是技術(shù)門檻高、資金投入多、商業(yè)模式尚且發(fā)展不成熟,AI Agent 通常很難獲得融資以持續(xù)更新迭代。
Multi-Agent 的范式是 Web3 助力 AI 的絕佳角度,已經(jīng)有不少 Web3 開發(fā)團(tuán)隊(duì)正在這些方面投入研發(fā)提供解決方案。
AI Agent 和 Multi-Agent 系統(tǒng)通常需要大量的計(jì)算資源來進(jìn)行復(fù)雜的決策和處理任務(wù)。Web3 通過區(qū)塊鏈和去中心化技術(shù),可以構(gòu)建去中心化的算力市場(chǎng),使得算力資源可以在全球范圍內(nèi)更加公平和高效地分配和利用。Akash、Nosana、Aethir、 IO.net 等 Web3 項(xiàng)目可以對(duì) AI Agent 決策和推理提供計(jì)算能力。
傳統(tǒng)的 AI 系統(tǒng)往往是集中式管理,導(dǎo)致 AI Agent 面臨單點(diǎn)故障和數(shù)據(jù)隱私問題,Web3 的去中心化特性可以使得 Multi-Agent 系統(tǒng)更加分散和自治,每個(gè) AI Agent 可以獨(dú)立地運(yùn)行在不同的節(jié)點(diǎn)上,自主執(zhí)行用戶提出的需求,增強(qiáng)了魯棒性和安全性。通過 PoS、DPoS 等機(jī)制建立針對(duì)質(zhì)押者、委托者的激勵(lì)懲罰機(jī)制,可以促進(jìn)單一 AI Agent 或 Multi-Agent 系統(tǒng)的民主化。
在這方面,GaiaNet、Theoriq、PIN AI、HajimeAI 都有非常前沿的嘗試。
Theoriq 是一個(gè)服務(wù)于“AI for Web3”的項(xiàng)目,希望通過 Agentic Protocol 建立 AI Agents 的調(diào)用和經(jīng)濟(jì)系統(tǒng),普及 Web3 的開發(fā)和許多功能性場(chǎng)景,為 Web3 dApp 提供可驗(yàn)證的模型推理能力。
GaiaNet 以節(jié)點(diǎn)為基礎(chǔ)的 AI Agent 創(chuàng)建和部署環(huán)境,以保護(hù)專家、用戶的知識(shí)產(chǎn)權(quán)與數(shù)據(jù)隱私為出發(fā)點(diǎn),抗衡中心化的 OpenAI GPT Store。
HajimeAI 則在兩者基礎(chǔ)上發(fā)力 AI Agent 工作流在實(shí)際需求中的建立和針對(duì)意圖本身的智能化、自動(dòng)化,呼應(yīng) PIN AI 提到的“AI 智能的個(gè)性化”。
同時(shí),Modulus Labs 與 ORA Protocol 分別在 AI Agent 的 zkML 和 opML 的算法方向取得了進(jìn)展。
最后,AI Agent 和 Multi-Agent 系統(tǒng)的開發(fā)和迭代往往需要大量的資金支持,而 Web3 可以通過前置流動(dòng)性的特點(diǎn)幫助有潛力的 AI Agent 項(xiàng)目獲取寶貴的早期支持。
Spectral 和 HajimeAI 均提出了支持發(fā)行鏈上 AI Agent 資產(chǎn)的產(chǎn)品構(gòu)想:通過 IAO(Initial Agent Offering)發(fā)行代幣,AI Agent 可以直接從投資者獲得資金,同時(shí)成為 DAO 治理的一員,為投資者提供參與項(xiàng)目發(fā)展和分享未來收益的機(jī)會(huì)。其中 HajimeAI 的 Benchmark DAO 希望通過眾籌加代幣激勵(lì)的方式,將去中心化的 AI Agent 評(píng)分和 AI Agent 資產(chǎn)發(fā)行有機(jī)結(jié)合起來,打造 AI Agent 依托 Web3 融資和冷啟動(dòng)的閉環(huán),也是比較新穎的嘗試。
AI 潘多拉魔盒已然開啟,置身其中的每個(gè)人既興奮又迷茫,熱潮下是機(jī)遇還是暗礁,無人知曉。如今,各行各業(yè)都已不再是 PPT 融資時(shí)代,無論多么前沿的技術(shù),也只有落地才能實(shí)現(xiàn)價(jià)值。AI Agent 的未來注定是一場(chǎng)漫長(zhǎng)的馬拉松, 而 Web3 正確保它不會(huì)在這場(chǎng)競(jìng)賽中黯然退場(chǎng)。
Devin — 自動(dòng)化編程
替代軟件工程師,我可能會(huì)使用今年爆火的 AI 軟件工程師 Devin,它能幫我完成所有前端和后端的工作。
Devin 由 Cognition Labs 開發(fā),被稱為是“世界上第一個(gè) AI 軟件工程師”。它能夠獨(dú)立完成整個(gè)軟件開發(fā)工作,獨(dú)立分析問題、做出決策、編寫代碼并修復(fù)錯(cuò)誤,均可自主執(zhí)行。大大減輕了開發(fā)人員的工作負(fù)擔(dān)。Devin 在短短半年內(nèi)就獲得了 1.96 億美元的融資,估值迅速飆升至數(shù)十億美元,投資方包括 Founders Fund、Khosla Ventures 等知名風(fēng)險(xiǎn)投資公司。
雖然 Devin 仍未推出公開版本,但我們可以從另一個(gè)最近爆火 Web2 的產(chǎn)品 Cursor 一窺潛力。它幾乎可以為你完成所有工作,將一個(gè)簡(jiǎn)單的想法在幾分鐘內(nèi)轉(zhuǎn)化為功能性代碼,你只需要發(fā)號(hào)施令,就能「坐享其成」。有報(bào)道稱,一個(gè)八歲的孩子,在沒有任何編程經(jīng)驗(yàn)的情況下,居然使用 Cursor 完成代碼工作并建起了一個(gè)網(wǎng)站。
Hebbia — 文件處理
替代產(chǎn)品經(jīng)理或財(cái)務(wù)人員,我可能會(huì)選擇 Hebbia,它能幫我完成所有文檔的整理和分析。
與 Glean 側(cè)重企業(yè)內(nèi)文檔搜索不同,Hebbia Matrix 是一個(gè)企業(yè)級(jí)的 AI Agent 平臺(tái),借助多個(gè) AI 模型,幫助用戶高效地提取、結(jié)構(gòu)化、分析數(shù)據(jù)和文檔,從而推動(dòng)企業(yè)生產(chǎn)力的提高。令人印象深刻的是,Matrix 能一次性處理多大數(shù)百萬份文檔。
Hebbia 在今年 7 月完成了 1.3 億美元 B 輪,a16z 領(lǐng)投,Google Ventures、Peter Thiel 等知名投資者參投。
Jasper AI — 內(nèi)容生成
替代社媒運(yùn)營(yíng)和設(shè)計(jì)師,我可能會(huì)選擇 Jasper AI,它能幫我完成內(nèi)容的生成。
Jasper AI 是一個(gè) AI Agent 寫作助手,旨在幫助創(chuàng)作者、營(yíng)銷人員和企業(yè)簡(jiǎn)化內(nèi)容生成流程,提高生產(chǎn)力和創(chuàng)作效率。Jasper AI 能夠根據(jù)用戶要求的風(fēng)格生成多種類型的內(nèi)容,包括博客文章、社交媒體帖子、廣告文案和產(chǎn)品描述等。并根據(jù)用戶的描述生成圖片,為文本內(nèi)容提供視覺輔助。
Jasper AI 已獲得 1.25 億美元的融資,并在 2022 年達(dá)到了 15 億美元的估值。根據(jù)統(tǒng)計(jì)數(shù)據(jù),Jasper AI 已幫助用戶生成超過 5 億個(gè)單詞,成為使用最廣泛的 AI 寫作工具之一。
MultiOn — 網(wǎng)頁(yè)自動(dòng)化操作
替代助理,我可能會(huì)選擇 MultiOn,幫我管理日常任務(wù)、安排日程、設(shè)置提醒,甚至是規(guī)劃出差行程,自動(dòng)預(yù)訂酒店,自動(dòng)安排網(wǎng)約車。
MultiOn 是一個(gè)自動(dòng)化的網(wǎng)絡(luò)任務(wù) AI 代理,能夠幫助在任何數(shù)字環(huán)境中自主執(zhí)行任務(wù),例如幫助用戶完成在線購(gòu)物、預(yù)約等個(gè)人任務(wù),提升個(gè)人效率,或幫助用戶簡(jiǎn)化日常事務(wù),提高工作效率。
Perplexity — 搜索、研究
替代研究員,我可能會(huì)選擇英偉達(dá) CEO 都在每天使用的 Perplexity。
Perplexity 是一個(gè) AI 搜索引擎,能夠理解用戶的提問,拆分問題,然后搜索和整合內(nèi)容,生成報(bào)告,以向用戶提供清晰的答案。
Perplexity 適用于各類用戶群體,例如學(xué)生和研究人員可以簡(jiǎn)化寫作時(shí)的信息檢索流程,提高效率;營(yíng)銷人員可以獲取可靠數(shù)據(jù)支持營(yíng)銷策略。
以上內(nèi)容僅為想象,當(dāng)下這些 AI Agent 的真正能力和水平尚不足以替代各行各業(yè)中的精英人才。正如 Logenic AI 聯(lián)合創(chuàng)始人李博杰所言,目前 LLM 的能力還只是入門級(jí)水平,遠(yuǎn)遠(yuǎn)達(dá)不到專家級(jí),現(xiàn)階段的 AI Agent 更像是一個(gè)干活比較快但不太可靠的員工。
然而,這些 AI Agent 憑借各自的特長(zhǎng),正在助力現(xiàn)有用戶在多樣化場(chǎng)景中提高效率和便利性。
不僅僅限于科技公司,各行各業(yè)都可以在 AI Agent 的浪潮中獲得益處。在教育領(lǐng)域,AI Agent 可以根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度、興趣和能力提供個(gè)性化的學(xué)習(xí)資源和輔導(dǎo);在金融領(lǐng)域,AI Agent 可以幫助用戶管理個(gè)人財(cái)務(wù),提供投資建議,甚至預(yù)測(cè)股票走勢(shì);在醫(yī)療領(lǐng)域,AI Agent 可以幫助醫(yī)生進(jìn)行疾病診斷和治療方案的制定;在電商領(lǐng)域,AI Agent 還可以作為智能客服,通過自然語言處理和機(jī)器學(xué)習(xí)技術(shù)自動(dòng)回答用戶咨詢,處理訂單問題和退貨請(qǐng)求,以此提高客戶服務(wù)效率。
Multi-Agent:AI Agent 的下一步
在上一節(jié)關(guān)于單人獨(dú)角獸公司的設(shè)想中,單一的 AI Agent 在處理復(fù)雜任務(wù)時(shí)面臨著局限性,難以滿足實(shí)際需求。而運(yùn)用多個(gè) AI Agent 時(shí),由于這些 AI Agent 基于異構(gòu) LLM,集體決策困難,能力有限,以至于還需要人類充當(dāng)這些獨(dú)立 AI Agent 之間的調(diào)度員,協(xié)調(diào)這些服務(wù)于不同應(yīng)用場(chǎng)景的 AI Agent 去工作。這便催生了“Multi Agent(多智體框架)”的興起。
復(fù)雜問題往往需要融合多方面的知識(shí)和技能,而單個(gè) AI Agent 的能力有限,難以勝任。通過將不同能力的 AI Agent 進(jìn)行有機(jī)組合,Multi-Agent 系統(tǒng)可以讓 AI Agent 發(fā)揮各自的長(zhǎng)處,取長(zhǎng)補(bǔ)短,從而更有效地解決復(fù)雜問題。
這非常類似于我們實(shí)際中的工作流程或組織結(jié)構(gòu):由一個(gè)領(lǐng)導(dǎo)者分配任務(wù),擁有不同能力的人,負(fù)責(zé)不同的任務(wù),每個(gè)工序執(zhí)行的結(jié)果給到下一個(gè)工序,最終得到最后的任務(wù)成果。
在實(shí)現(xiàn)過程上,由較低級(jí)別 AI Agent 執(zhí)行各自的任務(wù),而由級(jí)別較高的 AI Agent 分配任務(wù),并對(duì)它們的完成情況進(jìn)行監(jiān)督。
Multi-Agent 還能模擬我們?nèi)祟惖臎Q策過程,就像我們遇到問題時(shí)會(huì)找人商量一樣,多個(gè) AI Agent 也可以模擬集體決策的行為,為我們提供更好的信息支持。例如由微軟開發(fā)的 AutoGen 就滿足了這一點(diǎn):
能夠創(chuàng)建不同角色的 AI Agent。這些 AI Agent 具有基本的對(duì)話能力,能夠根據(jù)接收到的消息,生成回復(fù)。
通過 GroupChat 來創(chuàng)建由多個(gè) AI Agent 參與的群聊環(huán)境,在這個(gè) GroupChat 有一個(gè)管理員角色的 AI Agent 管理其他 AI Agent 的聊天記錄、發(fā)言者順序、終止發(fā)言等。
如果應(yīng)用到單人獨(dú)角獸公司的設(shè)想里,我們可以通過 Multi-Agent 架構(gòu)創(chuàng)建幾個(gè)不同角色的 AI Agent,比如項(xiàng)目經(jīng)理、程序員或者主管。把我們的目標(biāo)告訴它們,讓它們?nèi)我馊ハ朕k法,我們只要在一旁聽匯報(bào),如果覺得有意見或者它們做得不對(duì)的地方,就讓它們改,直到滿意為止。
相比單一的 AI Agent,Multi-Agent 可以實(shí)現(xiàn):
可擴(kuò)展性:通過增加 AI Agent 的數(shù)量來處理更大規(guī)模的問題,每個(gè) AI Agent 處理任務(wù)的一部分,使得系統(tǒng)能夠隨著需求的增長(zhǎng)而擴(kuò)展。
并行性:天然支持并行處理,多個(gè) AI Agent 可以同時(shí)在問題的不同部分上工作,從而加速了問題解決。
決策改進(jìn):通過聚合多個(gè) AI Agent 的洞察力來增強(qiáng)決策制定,因?yàn)槊總€(gè) AI Agent 都有自己的視角和專業(yè)知識(shí)。
隨著 AI 技術(shù)的不斷進(jìn)步,可以想象 Multi-Agent 框架將在更多行業(yè)發(fā)揮更大的作用,并推動(dòng) AI 驅(qū)動(dòng)的各類新解決方案的發(fā)展。
AI Agent 之風(fēng),吹向 Web3
邁出實(shí)驗(yàn)室,AI Agent 和 Multi-Agent 道阻且長(zhǎng)。
暫且不論 Multi-Agent,即便是當(dāng)下最先進(jìn)的單一 AI Agent ,其需要的算力資源和計(jì)算能力在物理層面仍有明確的上限,無法做到無限擴(kuò)展。一旦面臨極其錯(cuò)綜復(fù)雜、計(jì)算量密集的任務(wù),AI Agent 無疑將會(huì)遭遇算力瓶頸,性能大打折扣。
再者,AI Agent 和 Multi-Agent 系統(tǒng)本質(zhì)上是一種集中式的架構(gòu)模式,這決定了它存在著極高的單一故障風(fēng)險(xiǎn)。更重要的是,OpenAI、微軟、谷歌等公司基于閉源大模型的壟斷商業(yè)模式,嚴(yán)重威脅獨(dú)立、單一的 AI Agent 創(chuàng)業(yè)公司的生存環(huán)境,使得 AI Agent 無法順利利用龐大的企業(yè)私有數(shù)據(jù)來使它們變得更聰明、更有效率。AI Agent 之間亟需民主化的協(xié)作環(huán)境,使得真正有價(jià)值的 AI Agent 得以服務(wù)更廣闊的需求人群,為社會(huì)創(chuàng)造更大的價(jià)值。
最后,雖然與 LLM 相比,AI Agent 更貼近產(chǎn)業(yè),但其發(fā)展基于 LLM,而當(dāng)前大模型賽道的特點(diǎn)是技術(shù)門檻高、資金投入多、商業(yè)模式尚且發(fā)展不成熟,AI Agent 通常很難獲得融資以持續(xù)更新迭代。
Multi-Agent 的范式是 Web3 助力 AI 的絕佳角度,已經(jīng)有不少 Web3 開發(fā)團(tuán)隊(duì)正在這些方面投入研發(fā)提供解決方案。
AI Agent 和 Multi-Agent 系統(tǒng)通常需要大量的計(jì)算資源來進(jìn)行復(fù)雜的決策和處理任務(wù)。Web3 通過區(qū)塊鏈和去中心化技術(shù),可以構(gòu)建去中心化的算力市場(chǎng),使得算力資源可以在全球范圍內(nèi)更加公平和高效地分配和利用。Akash、Nosana、Aethir、 IO.net 等 Web3 項(xiàng)目可以對(duì) AI Agent 決策和推理提供計(jì)算能力。
傳統(tǒng)的 AI 系統(tǒng)往往是集中式管理,導(dǎo)致 AI Agent 面臨單點(diǎn)故障和數(shù)據(jù)隱私問題,Web3 的去中心化特性可以使得 Multi-Agent 系統(tǒng)更加分散和自治,每個(gè) AI Agent 可以獨(dú)立地運(yùn)行在不同的節(jié)點(diǎn)上,自主執(zhí)行用戶提出的需求,增強(qiáng)了魯棒性和安全性。通過 PoS、DPoS 等機(jī)制建立針對(duì)質(zhì)押者、委托者的激勵(lì)懲罰機(jī)制,可以促進(jìn)單一 AI Agent 或 Multi-Agent 系統(tǒng)的民主化。
在這方面,GaiaNet、Theoriq、PIN AI、HajimeAI 都有非常前沿的嘗試。
Theoriq 是一個(gè)服務(wù)于“AI for Web3”的項(xiàng)目,希望通過 Agentic Protocol 建立 AI Agents 的調(diào)用和經(jīng)濟(jì)系統(tǒng),普及 Web3 的開發(fā)和許多功能性場(chǎng)景,為 Web3 dApp 提供可驗(yàn)證的模型推理能力。
GaiaNet 以節(jié)點(diǎn)為基礎(chǔ)的 AI Agent 創(chuàng)建和部署環(huán)境,以保護(hù)專家、用戶的知識(shí)產(chǎn)權(quán)與數(shù)據(jù)隱私為出發(fā)點(diǎn),抗衡中心化的 OpenAI GPT Store。
HajimeAI 則在兩者基礎(chǔ)上發(fā)力 AI Agent 工作流在實(shí)際需求中的建立和針對(duì)意圖本身的智能化、自動(dòng)化,呼應(yīng) PIN AI 提到的“AI 智能的個(gè)性化”。
同時(shí),Modulus Labs 與 ORA Protocol 分別在 AI Agent 的 zkML 和 opML 的算法方向取得了進(jìn)展。
最后,AI Agent 和 Multi-Agent 系統(tǒng)的開發(fā)和迭代往往需要大量的資金支持,而 Web3 可以通過前置流動(dòng)性的特點(diǎn)幫助有潛力的 AI Agent 項(xiàng)目獲取寶貴的早期支持。
Spectral 和 HajimeAI 均提出了支持發(fā)行鏈上 AI Agent 資產(chǎn)的產(chǎn)品構(gòu)想:通過 IAO(Initial Agent Offering)發(fā)行代幣,AI Agent 可以直接從投資者獲得資金,同時(shí)成為 DAO 治理的一員,為投資者提供參與項(xiàng)目發(fā)展和分享未來收益的機(jī)會(huì)。其中 HajimeAI 的 Benchmark DAO 希望通過眾籌加代幣激勵(lì)的方式,將去中心化的 AI Agent 評(píng)分和 AI Agent 資產(chǎn)發(fā)行有機(jī)結(jié)合起來,打造 AI Agent 依托 Web3 融資和冷啟動(dòng)的閉環(huán),也是比較新穎的嘗試。
AI 潘多拉魔盒已然開啟,置身其中的每個(gè)人既興奮又迷茫,熱潮下是機(jī)遇還是暗礁,無人知曉。如今,各行各業(yè)都已不再是 PPT 融資時(shí)代,無論多么前沿的技術(shù),也只有落地才能實(shí)現(xiàn)價(jià)值。AI Agent 的未來注定是一場(chǎng)漫長(zhǎng)的馬拉松, 而 Web3 正確保它不會(huì)在這場(chǎng)競(jìng)賽中黯然退場(chǎng)。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。