美東時間19日週三,meta發佈第三代”分割一切”模型Segment Anything Models(SAM)——SAM 3,實現了重大突破,首次支持用戶通過自然語言描述和圖像示例來識別、分割和追蹤視頻中的任何物體。meta同時發佈了用於3D重建的開源模型SAM 3D,並計畫將這些技術整合到Instagram視頻創作應用Edits和meta AI應用中。
SAM 3最核心的創新在於引入了簡稱PCS的”可提示概念分割”(promptable Concept Segmentation)能力。用戶只需輸入“條紋紅色雨傘”這類自然語言提示詞,模型就能自動識別並分割圖像或視頻中所有符合條件的實例,突破了傳統模型依賴固定標籤集的限制。
在處理速度方面,SAM 3模型在一塊英偉達H200 GPU上處理含100多個物體的單張圖像僅耗時30毫秒,在約五個併發目標物體的視頻場景中,可維持接近即時的性能。
meta發佈的SA-Co基準測試顯示,SAM 3的性能相比現有系統提升了一倍。在LVIS數據集的零樣本分割任務中,SAM 3的準確率達到47.0,顯著超越此前的38.5。在用戶偏好測試中,SAM 3的輸出效果以約三比一的比例優於最強基準模型OWLv2。
meta介紹,上述技術突破將率先應用於Facebook Marketplace的新功能”房間預覽”(View in Room),幫助用戶在購買家居裝飾品前將產品在個人空間中的擺放效果可視化。meta還推出了Segment Anything Playground平臺,讓普通用戶無需技術背景即可體驗這些前沿AI模型的能力。
突破固定標籤限制,支持開放辭彙分割
傳統圖像分割模型面臨的最大挑戰是難以將自然語言與圖像中的具體視覺元素關聯。現有模型通常只能分割”人”等預定義概念,卻難以理解”條紋紅色雨傘”這類更細緻的描述。
SAM 3通過引入可提示概念分割能力解決了這一局限。該模型接受短語形式的文本提示和圖像示例提示,完全擺脫了固定標籤集的束縛。為評估大辭彙量檢測和分割性能,meta創建了SA-Co基準數據集,包含21.4萬個獨特概念、12.4萬張圖像和1700個視頻,概念覆蓋範圍達到現有基準的50倍以上。
該模型同時支持多種提示方式,既包括簡單名詞短語和圖像示例等概念提示,也支持SAM 1和SAM 2引入的點、框、掩碼等視覺提示。這大大提升了分割的靈活性和可用性,特別是對於罕見或難以用文字描述的概念。
SAM 3還可作為多模態大語言模型的感知工具,處理更複雜的提示,例如”坐著但沒有拿禮物盒的人”。當與多模態大語言模型配合使用時,SAM 3在ReasonSeg和OmniLabel等需要推理的複雜文本分割基準測試中表現優於此前研究,且無需在任何指代表達分割或推理分割數據上進行訓練。
創新數據引擎,人機協作提速5倍
獲取帶有分割掩碼和文本標籤的高質量標注圖像是一項重大挑戰,特別是在視頻中詳盡標注每個物體類別的出現位置既耗時又複雜。構建覆蓋大量多樣化辭彙和多個視覺領域的全面數據集需要大量時間和資源。
meta通過創建可擴展的數據引擎解決這一問題,該引擎將SAM 3、人類標注者和AI模型結合在一起,顯著加快了標注速度。對於負提示(圖像或視頻中不存在的概念),標注速度比純人工快約5倍,對於正提示即使在具有挑戰性的細粒度領域也快36%。這個人機混合系統使團隊能夠創建包含超過400萬個獨特概念的大規模多樣化訓練集。
由包括SAM 3和基於Llama的圖像描述系統在內的AI模型組成的流水線會自動挖掘圖像和視頻,生成描述,將描述解析為文本標籤,並創建初始分割掩碼。人類和AI標注者隨後驗證和修正這些提議,形成快速擴展數據集覆蓋範圍的回饋迴圈,同時持續提升數據品質。
AI標注者基於經過專門訓練的Llama 3.2v模型,在標注任務上達到或超過人類準確度,例如驗證掩碼品質或檢查圖像中某概念的所有實例是否已被詳盡標記。通過將部分人類標注任務委託給AI標注者,吞吐量相比純人工標注流水線提高了一倍以上。
SAM 3D開創物理世界3D重建新標準
SAM 3D包含兩個新的業界領先模型:用於物體和場景重建的SAM 3D Objects,以及用於人體姿勢和形狀估計的SAM 3D Body。這兩個模型在物理世界場景的3D重建方面樹立了新標準。
SAM 3D Objects代表了一種處理視覺定位3D重建和物體姿態估計的新方法,能夠從單張自然圖像重建詳細的3D形狀、紋理和物體佈局。該模型的創新來自於突破了長期存在的物理世界3D數據障礙。通過構建強大的數據標注引擎,結合為3D設計的新多階段訓練方案,SAM 3D Objects標注了近100萬張不同的圖像,生成了約314萬個模型參與的網格。
在頭對頭的人類偏好測試中,SAM 3D Objects相對其他領先模型的勝率至少達到5比1。該模型通過擴散捷徑和其他工程優化,可在幾秒鐘內返回品質相當的完整紋理重建,這使得3D近即時應用成為可能,例如作為機器人的3D感知模組。
SAM 3D Body專注於從單張圖像進行準確的3D人體姿勢和形狀估計,即使在涉及異常姿勢、遮擋或多人場景的複雜情況下也能勝任。該模型支持互動式輸入,如分割掩碼和2D關鍵點,使用戶能夠引導和控制模型的預測。
SAM 3D Body利用大規模高質量數據實現了準確穩健的3D人體姿勢和形狀估計。研究團隊從包含數十億張圖像的大型數據集開始,使用來自大規模多樣化照片集合的圖像、各種多攝像頭捕捉系統的高質量視頻以及專業構建的合成數據。然後使用可擴展的自動化數據引擎挖掘高價值圖像,選擇具有異常姿勢和罕見捕捉條件的圖像。團隊組建了約800萬張圖像的高質量訓練數據集,訓練模型對遮擋、罕見姿勢和多樣化服裝具有魯棒性。SAM 3D Body在多個3D基準測試中的準確性和魯棒性實現了階躍式提升,表現超越了以往模型。
應用拓展至野生動物保護和海洋研究
SAM 3已開始應用於科學研究領域。meta與Conservation X Labs和Osa Conservation合作,結合現場野生動物監測與SAM 3構建了一個開放的研究級原始視頻數據集。公開的SA-FARI數據集包含超過1萬個相機陷阱視頻,涵蓋100多個物種,每一幀中的每只動物都標注了邊界框和分割掩碼。
FathomNet是由蒙特雷灣水族館研究所(MBARI)領導的獨特研究合作專案,致力於推進海洋探索的AI工具。專為水下圖像定制的分割掩碼和新的實例分割基準現已通過FathomNet資料庫向海洋研究界開放。SA-FARI和FathomNet可供更廣泛的AI社區使用,以開發創新的方法來發現、監測和保護陸地和海洋野生動物。
來源:中國華爾街見聞