如果說雲端大模型通過學習海量文本與圖像數據,學會了“讀萬卷書”,那麼具身智能的目標,就是讓AI擁有身體,學會在複雜的物理世界中“行萬裏路”。這一步跨越,意味著人工智慧正從虛擬的數字世界,邁向真實的物理空間。
3月14日,在上海東方樞紐國際商務合作區舉辦的“申城策源·智鏈終端”人工智慧終端投融資峰會上,行業專家與投資者齊聚一堂,共同探討了端側AI領域的發展趨勢。與會者普遍認為,隨著AI從雲端走向手機、PC、汽車乃至各類機器人,如何讓這些智能終端理解並操作系統所在的物理環境,已成為產業爆發的核心命題。
具身智能的數據困境
“我們曾經講過讀萬卷書不如行萬裏路。”芯原股份創始人戴偉民在峰會上說,“現在機器人的‘小腦’(運動控制)做得很好,運動很靈活,但是‘大腦’(環境理解與決策)不行。”
“大腦”的困境源於數據的缺失。與語言模型可以輕易獲取整個互聯網的文本數據不同,具身智能需要的是與物理世界交互產生的數據,從中訓練出真正可以理解真實世界的智能。
上海國投先導私募基金管理有限公司副總經理吳緒成指出,當前整個具身智能產業的核心瓶頸是“數據供給嚴重不足”。與此同時,獲取數據的技術路線與訓練“大腦”的大模型技術路線都尚未收斂。究竟是採用直接學習“視覺-語言-行動”的VLA模型,還是構建一個能預測物理世界變化的“世界模型”,業界仍在探索。
VLA(Vision-Language-Action)模型試圖直接學習從“看到什麼(視覺)、聽到什麼指令(語言)”到“該做什麼(行動)”的映射關係,讓機器人的行動變得可以用文字解釋。另一種世界模型(World Model)的思路則致力於在模型內部構建一個關於物理世界的空間,真正做到理解物體、空間關係和物理規律,從而能夠讓機器像人一樣預測行動的後果。
然而,無論是哪一種演算法,都需要用物理世界的數據去訓練。在酷哇科技CEO何弢看來,整個具身智能賽道正陷入一個“先有規模還是先有智能”的先發悖論:沒有足夠智能的機器人,就無法在真實場景中大規模應用;而沒有大規模應用,就無法收集到訓練出更強“大腦”所必需的海量、高質量交互數據。如何打破這個迴圈,成為所有從業者必須回答的問題。
“路測法”與“落地法”之爭
“物理世界當中的交互數據怎麼樣能夠有效地捕獲,如何有效低成本地獲取?這是在端側模型發展目前面臨的首要問題。”何弢在峰會的主題分享中提到,並借鑒自動駕駛領域的發展歷程,提出瞭解決方案。
他將兩種數據獲取策略類比為穀歌Waymo的“路測法”和特斯拉的“落地法”。“路測法”即直接部署專門的測試車隊,一步到位地在真實道路上採集高質量數據, 其優勢在於目標純粹、數據高保真,但缺點在於規模擴張極度依賴高昂的資本開支,屬於典型的“燒錢模式”。
而“落地法”則另闢蹊徑。“特斯拉巧妙地利用了落地法,”何弢分析道,“先打磨出一個具備生產力價值的產品,比如一輛人類可以舒適駕駛的車。在交付產品、獲得收入的同時,獲取大量寶貴的數據。”這種模式雖然前期獲取數據的速度稍慢,但一旦產品形成規模,就能在不依賴資本持續輸血的情況下,形成一個“技術發展-商業落地-數據回饋”的良性飛輪。
遵循這一邏輯,何弢介紹道,酷哇科技致力於成為“世界模型驅動的城市具身智能全棧方案商”。通過打造智慧城市管家機器人、智慧出行小巴、智慧物業服務機器人等一系列能即刻產生商業價值的機器人產品,將其大規模部署到城市的大街小巷。
“我們通過打磨產品,在城市場景當中去把這個產品布出去了以後,一邊作業一邊獲回饋數據。”何弢說。目前,酷哇的城市管家機器人已經佔據市場上超過90%的份額,出貨量超過1萬臺。這些機器人構成了一個龐大的、持續運轉的數據採集網路,已經收集了超過50PB的物理真值數據。
具身智能的終極圖景:從城市邁向家庭
何弢表示,酷哇科技正在利用這些數據訓練更加“聰明”的端側機器人“大腦”。這個系統中不僅包含一個“世界模型”,讓機器人具備理解基本物理規律的直覺,也有部署在端側和雲端的推理模型,讓它們能夠進行邏輯推理這樣的“慢思考”。
在他看來,這種數據與演算法相互驅動的模式一旦成型,將帶來顯著的“馬太效應”。擁有最多落地場景和數據的企業,將能訓練出最強大的“世界模型”大腦;而最強大的大腦又能驅動機器人提供更好的服務,從而收割更多的市場份額與數據資產。
“頭部玩家的雪球越滾越大,底層推力正是數據與技術的飛輪效應。機器人大腦的技術演進越快,商業護城河就越深。”何弢說,即便現在已經出現使用AI合成的仿真數據來訓練模型的方式,真實世界數據的價值也難以取代。
基於這些原因,何弢認為,比起現在還沒有明確使用場景的人形機器人,具備精准場景定位、能迅速規模化落地的輪式或輪足機器人,例如自動駕駛汽車、商業清潔機器人、物流機器人等,反而可能是具身智能行業更好的起點,也能夠收集到更多的真實數據。
他告訴澎湃科技,具身智能發展的第二個階段可能是在更大範圍但仍受限的場景中,實現多智能體的協同作業。例如在一個社區或工業園區內,由一個統一的“世界模型”驅動無人小巴、配送機器人、清潔機器人協同服務,由一個“大腦”控制多個“身體”。“我認為是在三年內就可以看到。”他說。
何弢認為,機器人發展的最後一個階段是真正進入家庭,成為“給大家當保姆、做服務員”的通用機器人。他表示,家庭場景的複雜性和不確定性遠超前兩者,“居家機器人的能力,應該是結合上前面所有能力的集大成者。”
來源:中國澎湃新聞