10 月 26 日消息,特斯拉人工智慧與自動輔助駕駛軟體副總裁阿肖克・埃盧斯瓦米(Ashok Elluswamy)近日罕見地揭秘了該公司的人工智慧系統是如何學習駕駛的。IT之家注意到,在參加完國際電腦視覺會議(International Conference on Computer Vision)後,埃盧斯瓦米通過社交媒體平臺 X 發佈了一篇長文,詳細介紹了特斯拉“端到端”神經網路的技術原理。
根據埃盧斯瓦米的闡述,目前大多數自動駕駛公司依賴的是模組化、感測器密集型系統,將感知、規劃和控制三個環節彼此分離。而特斯拉則採取截然不同的方法 —— 將這三個功能整合進一個統一的、持續訓練的神經網路中。他解釋道:“梯度信號從控制層一直反向傳播至感測器輸入層,從而實現對整個網路的全局優化。”
他指出,這種架構的優勢在於可擴展性以及更貼近人類思維方式的推理能力。通過真實駕駛場景示例,他表示,特斯拉的 AI 能夠學習並掌握細微的價值判斷,例如決定是繞過路面積水,還是短暫駛入對向空車道以確保安全通行。“自動駕駛汽車無時無刻不在面對‘微型電車難題’,”埃盧斯瓦米寫道,“通過在人類駕駛數據上進行訓練,機器人得以學習與人類價值觀相一致的行為準則。”
他還強調,該系統使 AI 能夠理解複雜的意圖判斷,例如識別道路上的動物是準備穿越還是原地停留。這類細微行為若採用傳統編程方式手動編碼,難度極高。
埃盧斯瓦米坦言,這一技術路徑仍面臨巨大挑戰。特斯拉的 AI 系統需處理來自多攝像頭、導航地圖及運動學數據的數十億個“輸入標記”(input tokens)。為應對如此龐大的數據量,特斯拉依託其全球車隊構建了一個被稱為“數據瀑布”的龐大資源池,每天產生的駕駛數據相當於 500 年的實際駕駛經驗。隨後,先進的數據管道會從中篩選出最具價值的訓練樣本。
為了提升神經網路的可解釋性和可測試性,特斯拉開發了一系列專用工具。其中,“生成式高斯點陣渲染”(Generative Gaussian Splatting)技術可在毫秒級時間內重建三維場景,並無需複雜配置即可建模動態物體。此外,特斯拉自主研發的“神經世界模擬器”(neural world simulator)使工程師能夠在高度逼真的虛擬環境中安全測試新的駕駛模型,並即時生成高解析度、具備因果邏輯的回應。
埃盧斯瓦米最後表示,這一相同的神經網路架構未來也將應用於特斯拉人形機器人 Optimus。“這項工作最終將極大造福全人類,”他說道,並稱特斯拉是“當前全球從事人工智慧研究的最佳平臺”。
來源:中國IT之家