機器人正式進入家庭提上日程。
4月21日,引數機器人舉行發佈會,推出新一代機器人進家庭計畫,宣佈35天後,機器人將搭載新一代自研具身智能基礎模型WALL-B入駐真實家庭。
引數創始人兼CEO王潛在發佈會上表示,當前機器人的核心瓶頸不在本體,而在智能。家庭環境中的每一秒都可能出現全新事件:貓何時跳上桌子、孩子把玩具扔在哪里、地毯的摩擦力與實驗室地板完全不同。現有技術無法處理這種隨機性和碎片化,機器人進入家庭也被視為“這個時代最難的技術問題之一”。

解決數據損耗:世界模型並非外掛模組
據引數聯合創始人兼CTO王昊介紹,WALL-B定位為基於世界統一模型架構(WUM,World Unified Model) 的具身智能基礎模型,設計思路類似於Apple Silicon的統一記憶體架構,在蘋果M1晶片之前的Mac上,CPU、GPU、記憶體各自獨立,數據搬運產生的延遲和損耗成為性能瓶頸,蘋果通過統一記憶體架構讓所有處理單元共用同一塊記憶體,性能由此大幅提升。
在機器人領域,VLA(視覺-語言-動作模型)就類似於M1之前的筆記本電腦架構,視覺模組、語言模組、動作模組各自為政,數據在模組之間搬來搬去,每搬一次就丟一次資訊。WALL-B將視覺、語言、動作、物理預測等所有能力,放在同一個網路中從零開始聯合訓練、融為一體,消除了模組間的邊界和數據搬運損耗。
王昊強調,世界模型並非一個單獨的外掛模組,而是一種對物理世界未來的預測能力。“要解決數據損耗問題,不能簡單累加模組,而是要補上預測能力。”
“糖水”與“牛奶”:看似最難的路反而可能最簡單
“這個行業最大的秘密,不是演算法,不是架構,不是硬體,數據才是。”王昊將來源於實驗室的乾淨、穩定、可預測的數據比作“糖水數據”,用此類數據訓練的模型,就像在泳池裏學了10年游泳的人,一旦被丟進大海就會淹死。“它很甜,但除了甜並不會增加抵抗力,也不會提升體質。喝多了有可能還會增加患糖尿病的風險”,訓練出的模型幾乎不具備零樣本泛化能力。
與之相對,源自真實家庭、複雜不可控且充滿隨機性的數據則是具身智能的“牛奶數據”。儘管採集過程“很苦、很慢、很貴”,但王昊認為,要想要做出真正具備零樣本泛化能力的基礎模型,這條看似最難的路反而可能是最簡單的。為此,引數團隊進入了超過100個志願者的家庭去訓練模型。
完整工程閉環:機器人領域領先窗口或達三年以上
王潛在接受澎湃新聞等媒體採訪時表示,機器人進家庭目前並非百分百只靠AI模型去做,有時候還是得有人去在安全性等方面兜底和接管,但除了地形限制、工具太過複雜等情況外,所有能夠在物理上實現的事情,其實機器人都能做,“只要進入家庭,你就可以使喚它,不需要再考慮有什麼是能做的,有什麼是不能做的”。
王潛認為,企業長久的競爭力在於建立一個真正統一的閉環體系。相較於演算法架構,模型背後的數據定義、採集、改造、後處理以及訓練測評調整等完整的工程體系,才是最難被複製的部分。他以大模型行業為例稱,OpenAI曾領先穀歌近兩年,而在機器人領域,這樣的領先時間窗口會更長,可能達到三年以上。
值得一提的是,在發佈會上,王潛也正式宣佈引數於近日完成了B輪融資,由小米戰投領投。此前有報導稱,引數完成了近20億元的B輪融資,也成為國內公開披露的唯一一家被四家互聯網大廠(位元組、美團、阿裏、小米)投資的具身智能企業。
來源:中國澎湃新聞