在當地時間週一揭幕的行業頂級會議SIGGRAPH(國際電腦協會電腦圖形學和交互技術特別興趣小組年度會議)上,“全球股王”英偉達推出一系列面向機器人開發者的世界模型、應用庫和基礎設施。
其中,最引人關注的是參數量只有70億的開源物理AI應用和機器人視覺推理模型Cosmos Reason。

英偉達介紹稱,自從OpenAI多年前發佈CLIP模型以來,視覺語言模型已經改變了電腦視覺任務,例如物體與模式的識別等。然而,此前的模型無法解決多步驟任務,也難以應對模糊或新穎的現實體驗。
憑藉記憶和理解能力,Cosmos Reason能夠使機器人和AI具身代理“像人類一樣推理”,並在真實世界中採取行動。
在英偉達給出的案例中,運行視覺推理模型的機器人手臂,成功根據“麵包+烤麵包機”的場景,推斷出最合理的下一步動作是將麵包放進烤麵包機進行烘烤,並將思考邏輯轉化成機器手臂的操作指令。

(來源:英偉達)
這項功能叫做“機器人規劃與推理”。Cosmos Reason能夠作為機器人的“大腦”,負責有意識、條理化的決策。視覺推理模型能夠解釋環境,並在面對複雜指令時將其分解為任務並利用常識執行。
除此之外,這個模型還能用於一系列AI應用。例如自動化對大規模、多樣化訓練數據集進行整理、標注,也能從海量視頻數據中提取有價值的資訊並進行歸因分析。
目前這個模型已經投入商業化運營。英偉達披露,公司內部的機器人和自動駕駛團隊正使用這個模型進行數據整理與過濾、標注以及VLA(視覺語言動作)後訓練。優步(Uber)也在使用該模型為自動駕駛訓練數據進行標注與生成說明。
除此之外,麥格納國際正在使用該模型開發全自動即時配送解決方案City Delivery,用來幫助車輛更快適應新城市環境。VAST Data、Milestone Systems也在交通監控自動化、視覺檢測等領域應用該模型。
除了Cosmos Reason,英偉達也在Cosmos世界模型中新增了Cosmos Transfer-2,用來加速從3D仿真等場景生成合成數據,以及一個經過蒸餾、更為注重速度優化的Cosmos Transfers版本。
英偉達也在週一更新了Omniverse軟體開發工具包,並公佈了新的神經重建庫。其中包括一種渲染技術庫,允許開發者使用感測器數據在三維中模擬現實世界。
這一系列發佈標誌著AI晶片巨頭正在加碼進軍機器人領域,試圖將其培養成AI數據中心之外的下一個重要應用場景。
來源:中國財聯社