日前,穀歌DeepMind推出了兩款基於Gemini 2.0的新AI模型,旨在通過利用大語言模型的推理能力,完成複雜的現實世界任務,幫助機器人適應複雜環境。
第一款模型名為Gemini Robotics。據官方介紹,這是一個視覺-語言-動作模型。第二款模型是Gemini Robotics-ER(即具身推理)。該模型具備增強的空間理解能力,能讓機器人專家利用Gemini的具身推理(ER)能力運行自有程式。
穀歌DeepMind認為,要成為對人類有用的機器人AI模型,必須具備三大核心特質:通用性,能適應不同場景;交互性,能快速理解並回應指令或環境變化;以及靈巧性,能完成類似人手般精細的操作。新發佈的這兩款模型能讓多種機器人執行比以往更廣泛的現實任務。
Gemini Robotics適用於不同種類的機器人。
第一款模型Gemini Robotics在通用性、交互性和靈活性三個關鍵領域表現出色。它不僅能概括新場景,還更善於與人和環境互動,並且能夠執行更精確的物理任務,比如折疊一張紙或擰下瓶蓋。與前代模型相比,這款模型能理解更廣泛的自然語言指令範圍,並能根據輸入調整行為。
此外,它還能持續監控周邊環境,檢測環境或指令的變化,從而調整動作。穀歌DeepMind稱,這種可操作性將幫助人類在家庭、職場等場景中更好地與機器人協作。技術報告顯示,這款模型的綜合泛化性能是現有最先進視覺-語言-動作模型的兩倍以上。
第二款模型Gemini Robotics-ER(即具身推理)是一款先進的視覺-語言模,這款模型能夠“理解我們複雜而動態的世界”。例如,當你打包午餐盒並將食物放在面前的桌子上時,你需要知道所有東西的位置,以及如何打開午餐盒、抓取食物並將它們放在合適的位置。這正是Gemini Robotics-ER所要完成的推理過程。
在安全性方面,穀歌DeepMind研究人員維卡斯·辛德瓦尼(Vikas Sindhwani)在接受採訪時說,該公司正在開發一種“分層方法”,並稱Gemini Robotics-ER模型正在“被訓練用於評估在特定情境下潛在行為是否安全”。此外,該公司還在發佈新的基準和框架,以助力人工智慧行業的安全研究。去年,穀歌DeepMind推出了“機器人憲法”,這是一套受艾薩克·阿西莫夫啟發的規則,供機器人遵循。
穀歌DeepMind正在與Apptronik合作“打造下一代人形機器人”。它還向“受信任的測試人員”開放了Gemini Robotics-ER模型,包括Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools。
來源:中國澎湃新聞