隨著AI技術的快速發展,一款名為Manus的智能體引起了廣泛關注。這款智能體以其獨特的能力和執行效率,迅速在業界和用戶中獲得了破圈效應。然而,關于Manus的炒作爭議也層出不窮。為了更深入地了解Manus的實際表現,36氪編輯部決定邀請Manus作為實習生,按照正常的工作流程為其分配任務。
在經歷了一番波折后,36氪終于獲得了Manus的邀請碼,并啟動了這位新實習生。然而,初步體驗卻令人有些失望。Manus的服務非常不穩定,任務執行過程中頻繁遇到停滯,需要手動重置才能繼續。這種不穩定性給測試工作帶來了不小的挑戰。
盡管如此,Manus在一些基礎任務上的表現還是令人印象深刻。例如,在整理一份約2.8萬字的訪談錄音原文時,Manus能夠一次性完成校對和整理工作,大大簡化了以往需要多次與模型交互的流程。然而,Manus在處理長文任務時仍存在上下文過短和幻覺問題,導致任務中途頻繁中斷。
接下來,36氪讓Manus嘗試了一些更具挑戰性的任務,如新聞跟進和寫作。在新聞監控和篩選方面,Manus表現出色,能夠篩選出靠譜的信息源并進行重要性分析。然而,在訪問某些網站時,Manus被驗證碼擋住,需要人類接管。在新聞寫作方面,Manus雖然能夠生成通順的文本,但AI味較重,風格偏軟,需要人類進行細微調整后才能發表。
在數據分析及可視化方面,Manus的多智能體架構展現了其優勢。通過將復雜任務拆解為子任務并行處理,Manus顯著提高了數據分析效率。然而,與專門做研究的Deep Research相比,Manus在數據詳實程度方面仍有差距。不過,Manus生成的交互網頁在互動性和表格樣式上表現不錯。
在創意型任務上,Manus的表現則有些不盡如人意。例如,在模仿行業大V風格制作視頻時,雖然Manus能夠完成任務流程,但視頻腳本過于亢奮,對人類的感情理解較為表面。在微信公眾號版式和設計改進任務中,Manus雖然輸出了一套完整的方案,但在審美方面表現平平,配色和字體選擇并不統一。
盡管Manus在創意任務上表現平平,但其糾錯能力和工具調用成功率卻令人印象深刻。在任務執行過程中,Manus會嘗試不同的解決方案直至無法解決,才會向人類報錯。Manus對工具的調用成功率較高,能夠減少人類介入的次數,提升用戶體驗。
總體而言,Manus在分析總結、數據分析和開放性問題等強邏輯性任務上表現出色,但在創意工作和審美方面仍有待提升。受限于當前的服務穩定性和上下文窗口,Manus完成任務的邏輯和過程雖好,但交付質量仍需人類進行二次校對。不過,從完成任務的時間和質量來看,Manus已經展現出了不俗的實力。
與年初爆火的DeepSeek類似,Manus也通過技術平權的手段將AI產品迅速拉到了大眾面前。盡管目前仍處于比較粗糙的形態,但Manus已經讓用戶感受到了AI的巨大潛力。隨著技術的不斷進步和完善,相信Manus將在未來發揮更加重要的作用。