在人工智能領域,自主決策能力正逐漸成為衡量Agent價值的關鍵指標,也因此被視為AI時代的新基礎設施。然而,一些觀點認為,Workflow在此方面似乎存在局限性,難以打造出真正的通用Agent。
談及具備決策能力和自我意識的Agent,不得不提AlphaGo的問世。這是AI首次展現出非模板化、非規則驅動的智能行為。通過深度神經網絡與強化學習(RL),AlphaGo能夠自我對弈、自我優化,最終擊敗人類頂級棋手,標志著Agent時代的到來。
Devin的出現,可以被視為通用Agent發展的一個起點。它將AI的編碼能力、任務執行與反饋機制整合為一個閉環,為后續產品提供了寶貴的范例。Manus延續了Devin的思路,并提出“More Intelligence”的理念,通過任務拆解、自我反思、模型調度等方式,增強Agent的理解力和適應能力。而Genspark則采取了更加模塊化的路線,每個任務步驟都可組合,開發者可以快速搭建屬于自己的Agent系統。
盡管Workflow在構建Agent中扮演了一定角色,但業內逐漸形成共識:僅靠Workflow難以打造出真正的Agent。主流觀點認為,擁有基礎模型是構建Agent的起點,而RL則是賦予Agent連貫行為和目標感的“靈魂”。它決定了Agent如何理解環境反饋、進行長期規劃,是連接感知與行動的關鍵。
然而,Manus因缺乏底層模型能力和算法支撐,系統結構相對開放,容易被模仿。盡管如此,AI科技評論認為,這種批評有失公允,因為Manus在產品設計和任務編排上仍有不少創新之處。那些堅持深耕強化學習的團隊,在新一輪技術演進中逐漸走到了前沿位置。
Pokee AI創始人朱哲清,前meta AI應用強化學習團隊負責人,就是RL的堅定信仰者。他認為,RL的核心優勢在于目標驅動,圍繞清晰目標進行策略規劃和任務執行。缺少RL,Agent容易陷入“走一步看一步”的模式,缺乏內在驅動力,難以勝任復雜任務。
朱哲清表示,真正的Agent不僅要有執行能力,還要對環境產生不可逆的影響。Workflow產品仍處于早期階段,需要人為干預。真正的Agent能夠根據給定目標,自主選擇和使用工具完成任務。他認為,Agent的發展可分為多個階段,從Zapier的工作流系統,到LangChain的可組合型任務執行模式,再到Claude做MCP的演進,最終將實現自主性與智能性的前所未有的水平。
然而,并非所有人都對RL持樂觀態度。香港科技大學(廣州)博士生、DeepWisdom研究員張佳釔認為,現有RL技術雖能在特定環境中提升Agent能力,但本質上是“任務特化”,而非真正的智能泛化。他強調,跨環境智能體才是目標,而RL在跨環境學習上面臨困境。他認為,即便使用RL對語言模型進行環境內優化,若基礎模型能力較弱,即便訓練到“最優”,也只是對單一環境的適配,缺乏跨環境泛化能力。
張佳釔將Agent的發展過程分為六個階段,目前大多數Agent產品公司仍處于第二到第三階段之間,尚未邁過第四階段的門檻。他認為,突破當前瓶頸的關鍵在于使Agent擺脫人類預設經驗的束縛,通過自主探索獲取跨環境經驗,并學會與各類專業Agent協作。
Follou創始人謝揚則持有不同觀點。他認為,Agent和工作流自動化可以組合起來,Agent應成為協助人類提升生產力的工具,而非獨立個體。他更關心Agent是否能在現實中幫人把一件事做完,無論是搜索信息、分析數據,還是調度工具。在他看來,很多人過于執著于“Agent是否像人”,而忽略了其真正的應用意義。
謝揚表示,衡量一個Agent是否有生命力,關鍵在于它是否“可組合”“可調度”。只有將Agent靈活地組織在不同的垂直任務中,支持模塊化的能力組合,并與人類實現高效協同,它才真正具備長期應用的可能性。基于此理念,Follou構建了一套融合Agent與工作流的架構體系。
在RL信徒與質疑者的觀點交鋒中,一個趨勢逐漸清晰:Agent的演化不再是單一范式的勝利,而是多種技術路線的協同博弈。構建Agent需要模型能力、目標規劃和執行機制等多方面的精密協作。RL塑造目標感,模型提供理解力,外部接口延展執行力,三者缺一不可。如何將這些能力組合在一起,真正打造一個可泛化、可遷移的系統,是Agent走向通用市場的關鍵。