在邁向通用人工智能(AGI)的征途上,具身智能技術的突破與應用被視為不可或缺的一環。全球科技巨頭紛紛加速布局,特斯拉的Optimus、Agility Digit、波士頓動力的Atlas以及Figure AI等機器人項目層出不窮,而在今年的蛇年春晚,機器人“扭秧歌”的趣味表演更是成為了街頭巷尾的熱門話題。隨著大模型技術的不斷精進,具身智能迎來了前所未有的發展機遇。
然而,在國內眾多企業與高校推動具身智能技術發展的過程中,一個核心挑戰始終如影隨形——如何在有限的具身數據下,使機器人能夠靈活適應復雜場景,并實現技能的高效遷移。為了攻克這一難題,京東探索研究院的李律松、李東江博士團隊攜手地瓜機器人秦玉森團隊、中科大徐童團隊、深圳大學鄭琪團隊、松靈機器人及睿爾曼智能吳波團隊,共同發起了一項創新項目。該項目得到了清華RDT團隊在baseline方法上的技術支持,旨在探索一種全新的解決方案。
項目團隊提出了一種基于三輪數據驅動的原子技能庫構建框架,這一創新方法突破了傳統端到端具身操作的數據瓶頸。通過該框架,可以動態地自定義和更新原子技能,并結合數據收集與VLA(視覺-語言-動作)少樣本學習技術,高效構建技能庫。實驗結果顯示,該方案在數據效率和泛化能力方面均表現出色,為具身智能領域帶來了革命性的突破。
具身智能,即讓機器人具備身體感知與行動能力的人工智能,在生成式AI時代迎來了重要的發展契機。通過跨模態融合技術,將文本、圖像、語音等數據映射到統一的語義向量空間,為具身智能技術的發展提供了新的動力。然而,現實環境的復雜性使得具身操作模型在泛化性上面臨巨大挑戰。端到端的訓練方式雖然直觀,但依賴海量數據,容易導致“數據爆炸”問題,限制了VLA技術的發展。
為了解決這一問題,項目團隊提出了基于三輪數據驅動的原子技能庫構建方法。該方法能夠在仿真或真實環境的模型訓練中顯著減少數據需求。通過VLP(視覺-語言-規劃)模型將任務分解為子任務,并利用高級語義抽象模塊將子任務定義為通用原子技能集。隨著三輪更新策略的動態擴展,技能庫不斷擴增,覆蓋的任務范圍也越來越廣。這一方法將重點從端到端技能學習轉向了細顆粒度的原子技能構建,有效解決了數據爆炸問題,并提升了機器人對新任務的適應能力。
從產業落地角度來看,具身操作是機器人實現智能化的關鍵模塊。然而,現有的端到端VLA模型在進行高頻開環控制時,即便中間動作失敗,仍會輸出下一階段的控制信號。這導致VLA模型在高頻控制機器人或機械臂時,強烈依賴于VLP提供的低頻智能控制來指導階段性動作生成,并協調任務執行節奏。為此,項目團隊構建了集成視覺感知、語言理解和空間智能的VLP Agent,以統一訓練與推理的任務分解。
VLA技術雖然取得了顯著進展,但仍存在一些問題。隨著技術的發展,VLA模型從專用數據向通用數據演進,機器人軌跡數據已達百萬級別;模型參數規模也從千億級向端側部署發展。然而,在通用機器人應用中,人為定義端到端任務容易導致任務窮盡問題。物品位置泛化、背景干擾、場景變化等仍是主要挑戰。即便強大的預訓練模型,也需要大量數據來克服這些問題。項目團隊提出的三輪數據驅動的原子技能庫方法,結合SOTA VLA模型,通過高級語義抽象模塊將復雜子任務映射為結構化原子技能,有效提升了VLA模型的泛化性和可塑性。
原子技能庫的構建旨在降低數據采集成本,同時增強任務適配能力,提升具身操作的通用性,以滿足產業應用需求。通過基于數據驅動的原子技能庫構建方法,結合端到端具身操作VLA與具身規劃VLP,項目團隊成功構建了一個系統化的技能庫。這一技能庫能夠動態擴增,適應的任務范圍也不斷增加。相比傳統的TASK級數據采集,提出的原子技能庫所需要的數據采集量顯著下降,同時技能適配能力得到了大幅提升。