一段時間以來,圍繞VLA(Vision-Language-Action,視覺-語言-行動)模型、WMA(World-Model–Action,“世界模型+動作策略”)模型兩條路線的討論,是具身智能領域裏的熱點話題。現在,大家似乎不約而同地決定放下爭議,協同前行。
日前,智元機器人啟動了一項機器人賽事AGIBOT WORLD CHALLENGE @ ICRA 2026(以下簡稱 ICRA 2026),兩大核心賽道即為Reasoning to Action(推理-操作)和World Model(世界模型)。前者包括線上仿真與線下真機兩個階段,後者則聚焦具身智能中的生成與預測能力,採用線上競賽方式。
3月25日,智元Genie業務部生態及解決方案總監沈詠劍在接受包括澎湃科技(www.thepaper.cn)在內的媒體採訪時表示,從長期趨勢看,世界模型與VLA並不一定是替代關係,未來存在結合的可能。“從解決問題的層面上來說,有可能會有一些融合或者說合作的狀態,二者不算是替代和被替代的關係。”
VLA曾一度被視為具身智能的重要主流路徑,即讓機器人基於視覺輸入和語言指令,直接完成動作生成與執行。但隨著機器人開始進入更複雜、更長鏈條的任務場景,僅僅“看懂指令並做出動作”已不夠。機器人還需要理解任務目標、拆解步驟、推演環境變化,並在執行過程中持續調整策略。
沈詠劍介紹,此次賽事中設置的世界模型賽道考察的是模型根據機器人動作建模物理環境動態的能力。參賽者需要基於真實機器人觀測與動作信號,訓練視頻生成模型,生成機器人在多個真實任務場景中的交互視頻。

推理-操作賽道。來源:智元
另一條“推理-操作”賽道,同樣考核的是機器人去理解-執行任務這一具體過程。沈詠劍提到,去年的比賽更多是“疊衣服”這類相對明確、固定的任務,機器人基本是“讓它做什麼,它就做什麼”;而今年則加入了更多需要機器人先理解任務、再進行拆解和執行的場景,例如“整理桌面”這類任務,機器人不僅要完成動作,還要先理解什麼算整潔、先做什麼後做什麼,再完成整套流程。

世界模型賽道。 來源:智元
沈詠劍認為,當前世界模型的定義還未收斂,其核心可以概括為一種對未來狀態的預測與推演能力:系統基於當前可見的多模態資訊,判斷下一時刻可能發生什麼,或者在接收到任務指令後,推演機器人自身及周圍環境接下來會發生怎樣的變化。在他看來,這與當前VLA的範式並不完全相同,是相對獨立的一條技術路線。
從智元近一年的公開佈局看,該公司本身也並未只圍繞單一路線推進。智元在2024年底推出了AgiBot World,包含超過100萬條軌跡、涵蓋217個任務、涉及五大場景的大規模高質量真機數據集。2025年3月,智元發佈首個通用具身基座模型——智元啟元大模型(Genie Operator-1)。今年1月,智元又發佈了Genie Sim 3.0仿真平臺,該平臺基於NVIDIA Isaac Sim構建,融合三維重建與視覺生成技術,可實現數字孿生級高保真環境。與此同時,圍繞推理與操作融合、全身控制等方向,2026年1月,智元具身研究中心宣佈推出第二代一體化具身大小腦系統GenieReasoner。
沈詠劍表示,當前整個具身智能行業的人才仍處於稀缺狀態,特別是高素質、頂尖的演算法人才,他們希望通過賽事吸引更多優秀人才進入這一領域。
來源:中國澎湃新聞