中國一家人工智能(AI)實驗室發佈尖端模型的“技術配方”,此舉不僅震驚世界,也使其低調的負責人變成無視美國阻止中國高科技雄心企圖的民族英雄。
由對沖基金經理梁文鋒創立的公司深度求索正式發佈R1模型,並在一篇論文中詳細解釋了如何利用有限的自籌預算來構建一個大語言模型,該模型可在沒有人工監督的情況下自動學習和自我改善。
包括OpenAI和穀歌DeepMind在內的美企率先開發出推理模型,這是一個相對較新的人工智慧研究領域,旨在嘗試使模型具有與人類相匹配的認知能力。上月,OpenAI發佈o1模型的完整版本,但對創建模型的方法保密。
深度求索R1模型的發佈在矽谷引發一場激烈辯論,主題是包括Meta和Anthropic在內資源更雄厚的美國人工智能企業能否守住技術優勢。與此同時,梁文鋒也成為提升中國國內民族自豪感的焦點人物。在中國總理召開的一次座談會中,梁文鋒是唯一的人工智慧企業負責人。
2023年梁文鋒創建深度求索公司。“他建立一個出色的基礎設施團隊,他們真正瞭解晶片的工作原理。”另一家大語言模型公司的創始人說。
在華盛頓禁止英偉達向中國出口功能最強大的晶片後,中國本土人工智慧企業被迫尋找創新方法,以最大限度地利用現有晶片的計算能力,而梁的團隊已經知道如何解決這一問題。“深度求索公司的工程師知道如何釋放這些圖形處理器(GPU)的潛力,即使它們不是最先進的。”一名人工智能研究人員說。
業內人士表示,深度求索對研究的專注使之成為一個可畏的競爭對手,因為該公司願意分享取得的突破,而非為獲取商業利益保護它們。深度求索沒有從外部基金籌集資金,也沒有採取重大舉措將其模型貨幣化。北京的一名人工智能行業投資者說:“深度求索的運作方式就像早期的DeepMind,它專注於研究和工程。”
深度求索僅用2048顆英偉達H800 GPU和560萬美元,就訓練出6710億參數的開源大模型,這只是OpenAI和穀歌訓練同等類型模型花費的一小部分。加州大學伯克利分校人工智慧政策研究員裏特維克·古普塔表示,深度求索最近發佈的模型表明,“沒有阻礙人們獲取人工智慧能力的壕溝”。他說:“訓練模型第一人必須花費大量資源才能實現目的,但跟進者可用更少的費用且以更快的速度實現目的。”
古普塔還表示,中國擁有比美國大得多的系統工程師人才庫,他們知道如何最好地利用計算資源,以更便宜的方式訓練和運行模型。
美國的競爭對手也沒有停滯不前。它們正在構建由英偉達新一代Blackwell晶片組成的超大型“集群”,從而創造出強大的計算能力,有可能再次拉開與中國競爭對手的性能差距。(作者埃莉諾·奧爾科特等)
當來自中國的人工智慧競爭令矽谷感到恐慌,紮克伯格表示Meta將投資600多億美元 紮克伯格在社交媒體上表示,2025年將是“人工智慧的決定性一年”。他透露:“我們計畫今年對該領域增加600億至650億美元投資,同時大幅擴大人工智慧研發團隊。”
就在紮克伯格宣佈這一消息之際,矽谷正在審視與中國企業深度求索有關的新聞,在第三方開展的基準測試中,該公司開發的開源人工智慧模型的表現超過Meta、OpenAI和Anthropic等美企的模型。人工智慧和中國成為本周在瑞士達沃斯舉行的世界經濟論壇2025年年會的主要話題。“我們應該非常、非常認真地對待來自中國的發展態勢。”微軟(OpenAI最大投資方)的首席執行官納德拉如是說。
來源:環球時報