Sora獨佔鰲頭,光芒掩蓋了其他科技巨頭,很少有人注意到Meta同期推出了視頻模型技術架構V-JEPA。
驚歎過後,Sora到底能不能代表“世界模型”,也成為新的爭議點。
Meta首席人工智慧科學家Yann LeCun堅決指出,Sora並不能真的理解物理世界,“這樣的視頻生成與世界模型的因果預測仍然存在巨大差異”,並在接下來的幾天裏就此話題與網友展開了唇槍舌劍的爭執。
源源不斷的觀點輸出中,Yann LeCun更是直言,“通過生成像素來模擬真實世界,不僅是一種浪費,更是註定失敗”。
作為“世界模型”的理論先驅,雖然Yann LeCun並未否認Sora在視頻生成方面的傑出表現,但他始終強調Sora的生成式模型與“世界模型”相去甚遠,反而是JEPA架構更能接近“世界模型”路線。
國內也有技術分析人士指出:“Sora只是二維視覺的壓縮擴散和時空表達,既不是物理引擎,也不是世界模型。”
“世界模型”是目前技術流派中難度最高的一種,其特點在於讓機器能夠像人類一樣對真實世界有一個全面而準確的認知,不僅包括對事物的描述和分類,還包括對事物的關係、規律、原因和結果的理解和預測,從而進行推理和決策。
“世界模型”也被認為是通往AGI的最優解。如果就這麼被OpenAI搶去了“世界模型”的帽子,Yann LeCun是堅決不同意的,這位圖靈獎得主甚至在社交平臺憤怒表示:“我從沒想過,會看到這麼多從未為人工智能或機器學習做過任何事情的人告訴我,我對人工智慧和機器學習的觀點是錯誤、愚蠢、盲目、無知、誤導、嫉妒、偏見、脫節的。”
Yann LeCun炮轟Sora背後,Meta與OpenAI關於“世界模型”的路徑之爭,同樣激烈。
在Sora的技術文檔中,OpenAI並不是那麼“open”,文中大量篇幅是在介紹Sora的厲害之處,除了文生視頻,還可以圖生視頻、拓展視頻等,並未披露技術原理,而是使用了一種結論式表達——通過擴大視頻生成模型的規模,我們有望構建出能夠模擬物理世界的通用模擬器,這無疑是一條極具前景的發展道路。
隨後,英偉達AI研究員Jim Fan的觀點引領了輿論走向,他認為,Sora是一款數據驅動的物理引擎,是個可學習的模擬器或“世界模型”。
Meta的Yann LeCun明確反對,他指出,Sora只是經過訓練可以生成像素,但如果這樣的方式用來瞭解世界是如何運作的,那註定是個失敗的命題。
“視頻生成與‘世界模型’的因果預測有很大不同。”Yann LeCun表示,視頻生成似是而非的空間非常大,只需要產生一個合理的樣本就能視為成功,而真實視頻的合理延續空間要小得多,尤其是在特定動作條件下,難度就更大了。
Yann LeCun認為,實現“世界模型”更理想的方式,應該是讓機器智能像人類般學習、建立起周遭世界的內部模型,從而高效學習、適應並制定計畫以完成種種複雜的任務。
這也正是他提出的JEPA(Joint Embedding Predictive Architectures,聯合嵌入預測架構)的核心思想:不是填充缺失像素的生成式,而是預測。
人類最初對世界的理解,是從最自然的“觀察”開始,在此基礎上進行學習,總結經驗,形成認知模型,即應對每一種情況應該採取什麼態度或措施的“資料庫”。LeCun表示,JEPA就是基於這種邏輯。
JEPA在2022年由Yann LeCun首次提出。兩類模型I-JEPA和V-JEPA分別基於圖像、視頻進行抽象性預測。
Meta在官網上給出了參考視頻。筆記本被遮擋了一部分,而V-JEPA能夠對筆記本上的內容做出不同預測並形成視頻圖像。Meta表示,這是V-JEPA在觀看200萬個視頻後才獲取的能力。
V-JEPA生成被遮擋的部分,即以“人類理解的方式”看世界,不是通過手動標注,而是通過像人類一樣的被動觀察來建立對視頻片段的概念理解。
Meta2月14日發佈的論文中較為詳細地介紹了V-JEPA的主要特點和工作原理。V-JEPA採取了一種特殊的網路架構,其中包括一個編碼器(x-encoder)和一個預測器(predictor)。編碼器負責提取視頻幀的特徵表示,而預測器則基於這些特徵來預測目標幀的特徵。
與以變分自編碼器(Variational AE)、掩碼自編碼器(Masked AE)、去噪自編碼器(Denoising AE)等為代表的重建像素的生成型架構相比,JEPA聯合嵌入架構能夠產生更優秀的視覺表達。
Meta提出,V-JEPA的出現是朝著AMI(Advanced Machine Intelligence)邁出的重要一步。而隨著V-JEPA技術的發展,關於AI是否真正能夠學會以人類的方式思考、是否能夠擁有人類思維等人文倫理問題,或許會成為未來討論的焦點。
Meta最近披露的財報,收穫了史上最佳成績,2023年第四季度實現收入401.11億美元,同比增長25%,這也是其自2021年三季度以來的最大季度增幅。
漂亮的財報之後,資本市場也給予了Meta積極回饋。2月2日,Meta市值暴漲,股價一天內漲逾20%,創下美股歷史最高單日漲幅紀錄,市值隨之上漲2045億美元。截至2月21日,Mata股價為471.75美元/股,市值達到1.2萬億美元,正是山巔榮耀時刻。
Meta首席執行官馬克·紮克伯格(Mark Zuckerberg)指出,Meta在推動人工智慧和元宇宙願景方面取得了很大進展。通過與往年數據的對比,可以看出Meta擁抱AI對於自身業績的提升起到了積極影響。
Meta業績上漲很大一部分是源於廣告收入的增加,而AI為廣告業務的增長賦能。Mata2023年廣告收入為1319.48億美元,較2022年增加16%。對此,Meta首席財務官蘇珊·李(Susan Li)稱,通過AI技術在廣告平臺的應用,Meta在持續改進廣告服務能力並得到客戶的積極回饋。
在AI為廣告賦能的推動下,FoA(應用程式系列)實現業績的穩定增長。與2022年相比,2023年的FoA實現收入1330.06億美元,同比增加16%。
Meta財報指出,這一增長幾乎完全是由廣告收入推動的。2023年,Meta FoA的廣告展示量同比增長了28%,但每條廣告的平均價格同比下降了9%,部分抵消了這一影響。具體而言,投放的廣告數量與2022年的增長18%相比,增長了28%,原因是2023年所有地區的廣告展示次數都有所增長。與此相對,2023年每條廣告的平均價格下降了9%,相較於2022年的16%降幅更小。每條廣告平均價格的下降是由投放的廣告數量增加所致,尤其是在以較低費率獲利的地區和Reels等產品中。
同時,FoA核心用戶指標也超出市場預期。2023年12月,家庭日均活躍人數(DAP)為31.9億人,同比增長8%。截至2023年12月31日,家庭月活躍人數(MAP)為39.8億,同比增長6%。2023年12月,Facebook日均活躍用戶(DAU)為21.1億,同比增長6%。截至2023年12月31日,Facebook月活躍用戶(MAU)為30.7億,同比增長3%。
Meta在財報中指出,2024年將專注於六個關鍵投資領域,人工智慧是其中之一。繼續加大對於生成式AI的投資,推動AI持續為Meta產品和服務的各個計畫賦能,包括支持應用中內容排名的系統、推薦相關內容的發現引擎、開發新的生成式AI體驗,增強廣告商對用戶的吸引力,以及提高產品開發的效率。
中金公司分析師認為,Meta上調2024年資本開支20億美元至300億~370億美元,主要是基於AI相關基礎設施投入。
2022年,Meta深陷元宇宙泥沼,徘徊低谷,而如今以AI領域的開源路線扭轉局勢。
2023年7月,Meta與微軟合作發佈了開源模型LlaMa 2,包含70億、130億和700億三種參數類型,可免費用於商業或者研究。
後續,Meta的開源AI殺出了OpenAI、穀歌主導的AI閉源模型“重圍”,重新開闢出了一條道路。LlaMa 2將由微軟通過其雲服務分發,並在Windows操作系統上運行。LlaMa 2相比LlaMa 1在性能、訓練數據、安全等方面升級明顯,性能已經接近GPT3.5,對當前AI發展帶來的影響不容忽視。富國銀行、IBM等如今都部署了基於LlaMa 2的開源模型。
探索AI與應用生態結合,Meta在擁抱AI道路上越走越遠。
Meta在2月2日的財報電話會議上給出了選擇開源路線的理由,認為開源改善了Meta的模型,在戰略上擁有諸多優勢,且不會消除Meta產品的差異化。
首先,開源軟體通常更安全、更可靠,同時由於社區的持續回饋、審查和開發,運行效率更高。而效率的提高和計算成本的降低也讓包括Meta在內的每個人都受益;其次,開源軟體通常會成為行業標準。Meta表示,當其他公司使用Meta的技術棧進行標準化構建時,Meta就能更容易將其他公司的創新整合到自己的產品中,這種快速學習和改進的能力是一個巨大的優勢;最後,開源在開發者和研究人員中非常受歡迎,這有助於Meta招募到最好的人才。
同時,Meta再次強調其掌握獨特的數據,並且構建了獨特的產品集成,所以提供像LlaMa這樣的開源基礎設施並不會削弱Meta的主要優勢,Meta也會將其作為前進的正確途徑。
Meta還表示,LlaMa 3正在訓練當中,近期也會陸續推出Meta AI、AI Studio以及搭載AI功能的Quest3及智能眼鏡等toC產品。
據市場消息,Meta今年還計畫部署自研定制晶片。這款晶片將產自Meta的第二代內部晶片生產線,於2024年投產,能有助於減少對佔據AI晶片市場主導地位的英偉達旗下昂貴AI晶片的重度依賴。同時,在Meta計畫推出新的人工智慧產品之際,自研晶片能夠控制與人工智慧訓練等相關的成本。
此外,Meta的應用保持強勁的AI參與度,Facebook、Instagram、Messenger、WhatsApp等家族應用已經接入AI功能,在APP中推出超過20種的AI工具。今年Meta已形成了包括LlaMa 2、Threads、Reels以及Quest 3在內的產品路線圖。此外,Meta也在推動元宇宙從VR向XR轉變。
來源:21經濟網