今天,我們來聊聊科技熱詞“具身智能大模型”
1. 具身智能的發展背景
1.1 具身智能的定義
具身智能是一種基于物理身體進行感知和行動的智能系統,其核心在于通過智能體與環境的交互獲取信息、做出決策并實現行動。這種智能形式突破了傳統人工智能(AI)的局限,強調有物理身體的智能體通過與物理環境的互動來獲得真正的智能行為和適應性。具身智能的實質是強調有物理身體的智能體通過與物理環境進行交互而獲得智能的人工智能研究范式。
1.2 具身智能是機器人和人工智能技術發展匯聚點
具身智能的興起是人工智能與機器人技術各自發展到一定階段的必然結果,也是兩者深度融合的體現。AI為機器人提供“大腦”,使其具備感知、思考和決策能力;而機器人則為AI提供“身體”,使其能夠與真實世界進行交互,獲取經驗和知識。這種“大腦+身體”的結合,使得機器人不再只是被動執行命令的工具,而是成為真正意義上的智能體,能夠主動理解任務需求、規劃執行路徑,并在復雜環境中靈活調整策略。
1.3 具身智能大模型為機器人提供從感知、推理到執行的具身智能全流程解決方案
機器人要實現具身智能應用落地,必須完成自主感知、自主推理、自主執行的全流程解決方案。而具身智能大模型可以提供底層技術支撐。
自主感知需機器人具備對外部環境(人或物)的感知能力,通過傳感設備、信息表示建模、信息轉譯理解、下游任務應用,使得機器人能夠在復雜的工作環境下執行任務。具身智能大模型能夠處理來自物體、環境、行為、表達等不同維度的感知數據,并通過內部的信息表示重建來充分理解并指導推理和執行的步驟。
自主推理的過程主要包括任務規劃、導航和交互環節。任務規劃是具身智能的核心任務之一,將抽象的非可執行人類指令轉換為具體的可執行技能。這一步驟的完成需要將人類指令分解為機器人可執行的技能并執行技能。具身大模型可作為任務規劃的轉換器和分解器,用LLM將狀態信息描述成PDDL語言再進行規劃,取代以往需要人工針對實際問題書寫PDDL語言對任務進行建模,并以zero-shot進行任務規劃。
導航是具身智能體在3D環境中自主移動完成導航目標的能力。早期的導航通過構建一系列基于規則的組件和算法,實現有效的環境感知、定位、路徑規劃和避障。而基于具身智能大模型的導航則是利用深度學習與強化學習技術,提高模型對復雜環境和新場景的泛化能力。不同于傳統算法依賴預定義的規則和手工設計的特征,具身智能大模型導航算法從大量數據中學習環境特征和導航策略,實現強自適應性和高靈活性。
交互是指具身智能體主動探索環境、定位目標物體或位置獲取環境中的信息,然后基于獲取的信息回答問題。該任務可視為導航、傳統問答任務的結合。相比于傳統已有問答任務,具身智能大模型賦能后的機器人具有主動行動能力,因此可以實現更為復雜的場景交流問答信息。
自主執行是指實現任務的具體動作,其中最重要的環節就是技能學習,其以技能描述、環境觀察為輸入,輸出完成技能所需的7Dof軌跡(主要指人手腕或者機械臂末端執行器的位置、朝向、末端狀態)。具身智能大模型可通過將專家演示數據用神經網絡擬合后產生相關的執行序列,或是通過設計獎勵函數,由機器人通過交互學習行為策略,最后掌握實際執行任務操作。
2. 具身大模型兩種技術路徑分析及核心瓶頸
2.1 具身大模型的兩種流派
目前,具身大模型可以分為兩大流派,分層具身模型和端到端大模型。
分層具身模型采用“大腦-小腦-肢體”的架構,上層大模型負責感知與決策,底層硬件層和中間響應快的小模型負責分解與執行。這類模型更適合當前的數據積累水平,且更容易融入基于學習的控制方法,因此被更多廠商采用。
端到端大模型能夠直接實現從人類指令到機械臂執行的過程。輸入圖像及文本指令后,模型輸出夾爪末端的動作軌跡。這種方式簡化了系統的層次結構,提高了響應速度,但由于缺乏中間邏輯推理層,對海量數據的依賴度極高,目前尚未成為主流選擇。
2.2 分層具身模型
分層具身模型通過將感知、規劃決策、控制和執行各模塊分解為多個層級,分別突破“大腦”和“小腦”,利用不同的神經網絡進行訓練,最終再整合起來。例如人形機器人企業Figure便是采用三層級方案,頂層集成了OpenAI的大模型,負責視覺推理和語言理解,中間層是神經網絡策略(NNP),負責快速、靈巧的操作,將視覺信息直接轉換為動作指令,并輸出這些指令;底層是全身控制器,負責提供穩定的基礎控制,在接收神經網絡策略的動作指令后,輸出各關節的扭矩指令。又例如銀河通用的三層級大模型方案。底層是硬件層,中間層是通過仿真合成數據不用任何真實世界數據訓練的泛化的技能,最上層是大模型,可以調度中間技能API,來實現完整的從任務的感知、規劃到執行的全流程。
在分層模型方案中,將機器人的感知、推理和執行環節被類人化地劃分為負責解決高層次認知或決策問題的“大腦”,以及負責基礎層面的功能性問題的“小腦”。兩大系統各司其職又互相合作,“大腦”負責解析任務需求,整合來自傳感器的信息,進行任務的細化和策略規劃;“小腦”則專注于精細的運動控制,確保在“大腦”制定的策略指導下,機器人能夠準確無誤地執行動作并進行必要的調整。目前較為普遍的方向是,機器人的“大腦”由大模型來擔任,“小腦”則依然為底層控制算法。
大腦負責感知和規劃決策系統,主要基于多模態大模型,通過學習、理解、融合和對齊各傳感器采集而來的跨模態信息,實現對復雜環境的魯棒建模與更精準、通用的感知,并根據環境情況,自主拆解任務、規劃動作。
小腦負責運動規劃與控制系統,是人形機器人實現自然和流暢動作的關鍵。目前,“小腦”運動控制包括基于模型的控制方法和基于學習的控制方式兩個大類。傳統的基于模型的控制方法通過建立機器人的運動學和動力學模型,進行運動軌跡規劃和平衡控制。這一類方法的特點是身體控制穩健,但步頻較慢,且整體開發較為復雜,成本高,不利于產品快速迭代。基于模型的控制方法具體包括ZMP判據及預觀控制、混雜零動態規劃方法、虛擬模型解耦控制、模型預測控制+全身控制(MPC+WBC)等。基于學習的控制方法是使用端到端的人工智能技術,代替復雜的運動學模型,一般通過人類示教或自主學習建立運動執行策略,其中通過人類示教的方式也稱為模仿學習,效果依賴高質量示范數據;或是通過自主學習的方式,指通過精心設計學習目標,機器人不斷在環境中探索逐漸發現最大化獎勵的方式學習到最優的執行策略,效果依賴于仿真環境。
2.3 端到端大模型
端到端大模型目前主要聚焦于機器人的具身作業,實現直接從人類指令輸出機械臂執行動作的閉環流程,即輸入是圖像及文本指令,輸出是夾爪末端動作。以谷歌的RT-1到RT-2的進化迭代為例,2022年谷歌機器人研究團隊便基于模仿學習中行為克隆學習范式,把Transformer應用機器人的操縱任務上,提出了RT-1模型,其輸入為圖片序列、自然語言指令,可直接輸出由機械臂運動的目標位姿、基座的運動 、模式轉換指令,該端到端模型顯示出了在具身作業領域泛化能力。緊接著于隔年,谷歌發布了RT-2模型,基于VLM模型基礎,通過在互聯網上數據訓練,學習到更多關于視覺和語言之間映射關系的知識后,在機器人操縱任務上微調,使得機器人在執行具身作業任務時獲得更強涌現能力。
端到端模型相比于分層具身模型,其可以簡化傳統上需要多個獨立模塊才能完成的任務流程,提高系統的效率的同時還能增強其泛化能力和通用性。首先在泛化能力方面,端到端模型具有強大的泛化能力。以谷歌DeepMind推出的RT-2為例,該模型可以在新的物體、背景和環境中表現出顯著改善的性能。它可以理解并響應那些在訓練數據集中未曾出現過的命令,并基于底層語言模型提供的思路鏈進行推理,從而做出合理的決策。其次在通用性方面,端到端模型具備高度的通用性。由于它是建立在一個通用的大規模預訓練基礎上,因此理論上幾乎所有的“智能機器設備”都可以使用這套算法。無論是汽車、飛行器還是其他類型的機器人,只需要經過適當的微調就能滿足特定應用場景的需求。
2.4 數據是具身大模型訓練的核心瓶頸
對于具身大模型發展而言,訓練數據積累不足是核心瓶頸。因對人類而言一些簡單的任務諸如靈巧性能力、空間感知能力、平衡恢復能力等,對機器人而言卻是困難重重。為讓機器人能夠掌握這些能力,需要用海量數據進行訓練才能達成,但機器人模態的數據積累遠遠落后于其他模態,嚴重制約了機器人的學習能力和性能提升。對比不同模態下的最大數據集,文本模態約15Ttokens,圖片模態有6B圖文配對數據,視頻模態有2.6B視聽特征數據。然而機器人模態只有240萬個數據片段,相比其他模態而言,數據積累遠遠不夠。
針對數據積累不足問題,行業往往通過遠程操作、視頻學習等方式以快速積累機器人訓練數據。遠程操作主要由實驗人員操作機械手柄,遠程控制機器人做出相同動作,以此來積累數據。通過多個操作員協作收集了大規模多樣化的數據集,再基于這些數據集訓練機器人的靈巧作業能力。在單臂機器人任務中,通過遠程操作來進行數據采集,通常需要多個操作員、機器人以及數月的人力投入,耗時耗力。而在類人機器人的任務復雜性更高場景中,因此需同時控制多臂和多指手,數據采集工作負擔更是大幅增加。視頻學習是通過多模態大模型,直接讓機器人通過視頻學習人類動作,從而積累訓練數據。考慮到通過人類遠程操控等方式的示教成本較高,從人類視頻中學習已成為機器人的主流訓練方法之一,如直接通過YouTube視頻進行策略學習。但視頻學習同樣遇到一些局限。例如在控制上,視頻示教沒有提供機器人本體的運動數據,智能體需要僅根據演示視頻生成動作指令,增加了學習難度。
在感知上,機器人與人類的視角不同,人類演示視頻中的每一幀是人手臂的運動圖像,而機器人捕獲的圖像是機械臂的運動圖像,二者之間存在較大差異,導致機器人難以準確理解人類動作。在誤差精度上,由于視角差異和圖像內容的不同,演示視頻與機器人感知的圖像之間存在較大誤差,影響學習效果。
3. 具身大模型未來發展展望
3.1 通過仿真、AR等技術手段打破數據積累瓶頸
為打破機器人訓練數據荒的現狀,業內目前正嘗試采用仿真模擬、AR等技術手段收集與機器人運動學相匹配的可執行訓練數據,并能大幅提升任務執行成功率。2024年11月,來自英偉達、UT Austin和UCSD的研究人員推出了一種大規模自動化數據仿真生成系統——DexMimicGen,它可基于少量人類演示合成類人機器人的靈巧手運動軌跡,幫助實現在更少人工干預下擴大類人數據的采集,相較僅依賴源演示,DexMimicGen大幅提升了策略成功率,所有任務中基于DexMimicGen數據集訓練的機器人表現明顯優于僅基于少量源數據訓練的機器人。2024年10月,斯坦福李飛飛團隊提出了一種基于AR技術的數據收集系統——ARCap,它通過增強現實(AR)和觸覺警告提供視覺反饋,以指導用戶收集高質量的演示,通過利用從ARCap收集的數據,經驗證機器人可以提升任務執行效率和復雜度,例如在雜亂的環境中進行操作和長視野跨具身操作。
3.2 從分層式結構向端到端一體化架構的演進
具身大模型作為人工智能與機器人技術深度融合的產物,正在引領機器人邁向通用智能的新階段。未來,隨著數據積累的不斷豐富、算法能力的持續提升以及硬件算力的快速進步,具身大模型將經歷從分層式結構向端到端一體化架構的演進,最終實現“大腦-小腦-肢體”高度協同的自主行為能力。
當前主流的分層具身大模型將繼續發揮其在任務分解、多模態感知和決策規劃方面的優勢,尤其是在工業制造、危險作業等結構化場景中,具備更強的可解釋性和可控性。然而,隨著遠程操作和仿真訓練等數據獲取方式的成熟,機器人訓練數據量將持續增長,為端到端大模型的發展提供堅實基礎。未來端到端具身大模型將成為核心發展方向,它不僅提升了系統的響應速度和泛化能力,也為機器人進入更開放的服務場景(如家庭服務、醫療護理、教育陪伴等)提供了可能。
總的來看,具身大模型不僅是機器人智能化升級的核心引擎,更是推動AI邁向AGI(通用人工智能)的重要一環。未來十年,將是具身智能爆發的關鍵窗口期,值得持續關注與深入布局。
作者:
趙石軒 中國移動智慧家庭運營中心企業發展部戰略管理經理
趙永生 中國移動智慧家庭運營中心具身智能產業創新中心技術管理經理
王顥 中國移動智慧家庭運營中心企業發展部戰略管理經理
審核:
程寶平 中國移動首席專家、中國移動智慧家庭運營中心具身智能產業創新中心總經理
出品:科普中國×中國移動科學技術協會