在科技領(lǐng)域迎來新突破之際,智元機(jī)器人公司宣布了一項(xiàng)重大創(chuàng)新成果——智元啟元大模型(Genie Operator-1),這一消息由知名科技極客“稚暉君”的創(chuàng)業(yè)項(xiàng)目正式揭曉。
智元啟元大模型的核心在于其革命性的Vision-Language-Latent-Action(ViLLA)架構(gòu),這一架構(gòu)巧妙融合了VLM(多模態(tài)大模型)與MoE(混合專家)技術(shù),使得機(jī)器人能夠通過觀察人類視頻進(jìn)行學(xué)習(xí),并在小樣本條件下迅速適應(yīng)新任務(wù)。這一技術(shù)的實(shí)現(xiàn),不僅大幅降低了具身智能的應(yīng)用門檻,還成功應(yīng)用于智元的多款機(jī)器人產(chǎn)品中。
在五種不同復(fù)雜度的任務(wù)測試中,GO-1大模型展現(xiàn)了其卓越的性能。與現(xiàn)有最優(yōu)模型相比,GO-1的平均成功率提高了32%,從46%躍升至78%。特別是在“倒水”、“清理桌面”和“補(bǔ)充飲料”等具體任務(wù)中,GO-1的表現(xiàn)尤為搶眼。
智元團(tuán)隊(duì)還針對ViLLA架構(gòu)中的Latent Planner進(jìn)行了專項(xiàng)驗(yàn)證。實(shí)驗(yàn)結(jié)果顯示,引入Latent Planner后,任務(wù)成功率進(jìn)一步提升了12%,從66%增長到78%。
GO-1大模型之所以能夠?qū)崿F(xiàn)如此顯著的性能提升,得益于其強(qiáng)大的學(xué)習(xí)能力。該模型結(jié)合了互聯(lián)網(wǎng)視頻和真實(shí)人類示范數(shù)據(jù),使得機(jī)器人能夠更好地理解人類行為,從而提供更加貼心的服務(wù)。同時(shí),GO-1還具備出色的泛化能力,能夠在極少甚至零樣本的情況下適應(yīng)新場景和新任務(wù),極大地降低了具身模型的使用難度和后訓(xùn)練成本。
更令人矚目的是,GO-1大模型作為一款通用機(jī)器人策略模型,能夠輕松遷移至不同形態(tài)的機(jī)器人上,實(shí)現(xiàn)快速適配和群體升智。這一特性使得GO-1成為了一款極具潛力的通用具身基座模型。
在實(shí)際應(yīng)用中,GO-1大模型展現(xiàn)出了其持續(xù)進(jìn)化的能力。通過智元提供的數(shù)據(jù)回流系統(tǒng),GO-1能夠從實(shí)際執(zhí)行任務(wù)中遇到的問題數(shù)據(jù)中不斷學(xué)習(xí)和進(jìn)化,實(shí)現(xiàn)越用越聰明的目標(biāo)。
智元機(jī)器人的創(chuàng)始人之一彭志輝(稚暉君)曾以“華為天才少年計(jì)劃”最高檔年薪201萬元加入華為團(tuán)隊(duì),從事AI芯片和算法研究工作。2022年年底,他從華為離職,并于2023年2月聯(lián)合創(chuàng)立了智元機(jī)器人公司。