25年開年以來,AI發(fā)展如火如荼,DeepSeek R1、OpenAI CUA、Manus等重要創(chuàng)新層出不窮,眼花繚亂。
這里我將最近一個月以來的思考總結(jié)一下,對25年AI發(fā)展趨勢做幾點預(yù)判。
(1)Manus:Agent元年的一次搶跑
Manus推出之后,我們第一時間拿到了體驗賬號,進(jìn)行了充分的體驗測評。
先說結(jié)論:雖然Manus目前還有種種不足,但它的產(chǎn)品設(shè)計思路創(chuàng)意滿滿,值得我們給予充分的肯定。
Manus的核心架構(gòu)基于“虛擬機+多Agent協(xié)同”模式,通過整合多個底層大模型(如GPT-4、Claude 3等)的API,實現(xiàn)任務(wù)的動態(tài)分配與模型調(diào)用。
Manus突破了傳統(tǒng)AI助手僅生成建議的局限,實現(xiàn)了從“需求輸入”到“成果交付”的端到端閉環(huán)。
Manus提出“Less Structure, More Intelligence”的交互理念,通過無代碼化的自然語言接口降低用戶使用門檻。
與此同時,Manus使用一個外置的markdown文件來管理Agent的任務(wù)規(guī)劃,并且將階段性的工作成果存儲為獨立文件,這也是一個非常有趣的創(chuàng)新點。
(2)Manus的不足與缺陷
Manus在MultiAgent的道路上提供了一種非常有趣的思路,但現(xiàn)在依然存在一些顯而易見的不足之處。
首先是“幻覺累加”的問題。
Agent的本質(zhì)是多次大模型問答的串并聯(lián)。如果單次大模型問答的準(zhǔn)確率是90%,串聯(lián)10次的話,最終Agent回答準(zhǔn)確的概率是0.9^10,只有1/3左右了。
在下面的案例中,Manus的任務(wù)是針對某上市公司進(jìn)行財務(wù)數(shù)據(jù)分析。Manus很聰明的import了data_api模塊,準(zhǔn)備從雅虎提供的接口中調(diào)取財務(wù)數(shù)據(jù)。
但是在process_financial_data函數(shù)中,manus竟然把revenue、gross_profit等數(shù)據(jù)直接“硬編碼”到了代碼中,讓人猝不及防。而且經(jīng)過驗證,這里的數(shù)據(jù)有部分是錯誤的。
如果原始數(shù)據(jù)出錯了,那么后續(xù)無論分析得多么深入、圖表做得多么fancy都失去了意義。
Manus的第二個問題是可供大模型調(diào)用的工具不足。
下面這個例子中,Manus的任務(wù)是寫一篇關(guān)于“小米Su7”的市場分析報告PPT。
Manus完美的拆分了任務(wù),并且檢索了大量新聞,但是最后它無法生成一份PPT,因為它無法調(diào)用Office軟件。
目前Manus輸出的內(nèi)容形式多為純文本或者網(wǎng)頁,還無法和人類工作流進(jìn)行完美融合。