本網綜合 Eduardo Baptista、Julie Zhu 和 Fanny Potkin 報導 DeepSeek正尋求鞏固其優勢。 這家中國初創公司上個月推出了一款價格低廉的人工智慧推理模型,其表現優於許多西方競爭對手,引發了全球股市1萬多億美元的拋售潮。
現在,據三位熟悉該公司的人士透露,這家總部位於杭州的公司正在加快推出 1 月份 R1 模型的後續產品。
其中兩人說,Deepseek 原計畫在 5 月初發佈 R2,但現在希望儘早推出,但沒有提供具體細節。
該公司表示,希望新模型能產生更好的編碼,並能用英語以外的語言進行推理。關於加快 R2 發佈時間表的細節,此前沒有報導。
競爭對手仍在消化 R1 的影響,R1 採用的是性能較弱的 Nvidia 晶片,但與美國科技巨頭耗資數千億美元開發的晶片相比,具有一定的競爭力。
印度技術服務提供商 Zensar 的首席運營官 Vijayasimha Alilughatta 表示:“DeepSeek 推出的 R2 模型可能是人工智慧行業的轉捩點。他指出,DeepSeek 在構建成本效益高的人工智慧模型方面取得的成就“極有可能激勵全球企業加速自身的研發進程……打破該領域少數主導企業的壟斷局面”。
R2 可能會讓美國政府感到擔憂,因為美國政府已將領導人工智慧作為國家優先事項。它的發佈可能會進一步刺激中國政府和公司,其中數十家公司表示已開始將 DeepSeek 模型集成到它們的產品中。
DeepSeek的創始人梁文峰通過其量化對沖基金High-Flyer成為億萬富翁,但人們對他知之甚少。梁文峰被一位前雇主形容為 “低調、內向”,自 2024 年 7 月以來,他從未接受過任何媒體採訪。
記者訪問了十餘名前雇員,並諮詢了熟悉DeepSeek及其控股公司High-Flyer運營情況的量化投資基金專家。該公司運作模式更類似於一個研究實驗室,而非傳統意義上的盈利企業,它不受中國科技行業高壓環境的常規限制。在眾多投資者眼中,DeepSeek甚至被視為人工智慧領域最新進展的引領者。
不同的道路
梁文峰 1985 年出生於廣東南部的一個農村。後來,他在名校浙江大學獲得通信工程學位。
他的第一份工作是在上海一家智能成像公司負責研究部門。2 月 9 日,他當時的老闆周朝恩告訴國家媒體,梁文峰聘用了獲獎的演算法工程師,並以 “扁平化管理風格 ”運作。
在DeepSeek和High-Flyer,梁文峰同樣避開了中國科技巨頭的做法,即僵化的自上而下的管理、年輕員工的低薪和 “996 ”工作制–每週工作六天,從早上9點到晚上9點。
梁文峰在北京開設的辦公室距離清華大學和北京大學這兩所中國最負盛名的教育機構僅一步之遙。據兩名前員工稱,他經常鑽研技術細節,並樂於與占公司大部分員工的 Z 世代實習生和應屆畢業生一起工作。他們還描述說,梁通常每天工作八小時,工作氛圍融洽。
“梁給了我們控制權,並把我們當作專家。”26 歲的研究員本傑明·劉(Benjamin Liu)今年 9 月離開了公司。“DeepSeek讓我掌握了管道關鍵部分的所有權,這讓我非常興奮”。
當百度和其他中國科技巨頭競相在2023年打造面向消費者的ChatGPT版本,並從全球人工智慧熱潮中獲利時,梁文峰去年告訴中國媒體《浪潮》(Waves),他刻意避免在應用開發上花費鉅資,而是專注於完善人工智慧模型的品質。
據三位熟悉 DeepSeek 和 High-Flyer 薪酬慣例的人士稱,這兩家公司都以薪酬豐厚著稱。其中一位熟知梁文峰的競爭對手量化基金經理說,在High-Flyer,高級數據科學家年薪達到150萬元並不罕見,而競爭對手的年薪很少超過80萬。
據兩位業內人士稱,High-Flyer 已成為中國最成功的量化基金之一,即使在政府打擊該行業之後,High-Flyer 仍然管理著數百億元人民幣的資金。
計算能力
三位人士表示,DeepSeek 在低成本人工智慧模型方面的成功,是基於 High-Flyer 長達十年之久的大量研究和計算能力投資。
這家量化基金是人工智慧交易領域的先驅,一位高管在2020年表示,High-Flyer正在 “全情投入 ”人工智慧,將其收入的70%重新投資,其中大部分用於人工智慧研究。
2020 年和 2021 年,High-Flyer 斥資 12 億元購買了兩個超級計算 AI 集群。第二個集群 “Fire-Flyer II ”由約 1 萬塊英偉達 A100 晶片組成,用於訓練人工智慧模型。
一位直接瞭解官員想法的人士說,DeepSeek 當時尚未成立,因此計算能力的積累引起了中國證券監管機構的注意。
這位人士說:“監管部門想知道,他們為什麼需要這麼多晶片?他們打算如何使用這些晶片?這會對市場產生什麼樣的影響?”
當局決定不予干預,此舉對 DeepSeek 的命運至關重要:美國在 2022 年禁止向中國出口 A100 晶片,而此時 Fire-Flyer II 已經投入使用。
一位熟悉中國官方想法的人士說,中國政府現在為 DeepSeek 慶祝,但指示它未經批准不得與媒體接觸。
該人士說,當局要求梁保持低調,因為他們擔心媒體過多的炒作會引起不必要的關注。
中國內閣和商務部以及中國證券監管機構沒有回應置評請求。
兩名前員工說,作為擁有大型 A100 集群的少數幾家公司之一,High-Flyer 和 DeepSeek 能夠吸引中國最優秀的研究人才。
前員工劉說:”龐大(計算)資源的關鍵優勢在於可以進行大規模實驗。”
一些西方人工智能企業家,包括 Scale AI 公司的首席執行官亞曆山大·王(Alexandr Wang),聲稱 DeepSeek 擁有多達 5 萬塊被禁止出口到中國的更高端的英偉達(Nvidia)晶片。然而,他並未提供支持這一指控的證據,也未回應路透社的舉證請求。
DeepSeek 對王的聲明未作回應。兩位前員工將公司的成功歸功於梁對更具成本效益的人工智慧架構的專注。
該公司的研究論文揭示,DeepSeek 利用了專家混合物(MoE)和多頭潛注意(MLA)等技術,這些技術的計算成本顯著降低。
MoE 技術將人工智慧模型劃分為不同的專業領域,只啟動與查詢相關的領域,而不是使用整個模型的常見架構。
MLA架構允許模型同時處理一條資訊的不同方面,幫助它更有效地檢測關鍵細節。
雖然法國的 Mistral 公司等競爭對手已經開發出了基於 MoE 的模型,但 DeepSeek 是第一家在很大程度上依賴這種架構的公司,同時實現了與更昂貴的模型的平價。
伯恩斯坦(Bernstein)經紀公司的分析師在二月初估計,DeepSeek 的定價比 OpenAI 對同等模型的收費便宜 20 到 40 倍。
目前,西方和中國的科技巨頭都表示計畫繼續加大人工智慧投入,但DeepSeek在R1及其早期的V3模型上取得的成功促使一些公司改變了戰略。
OpenAI 在本月下調了價格,而穀歌的 Gemini 則推出了折扣級別的訪問許可權。自 R1 推出以來,OpenAI 還發佈了 O3-Mini 模型,該模型依賴的計算能力更低。
美國技術服務提供商 UST 的阿德南·馬蘇德(Adnan Masood)告訴記者,他的實驗室進行的基準測試發現,R1 在推理時使用的代幣(即人工智慧模型處理的數據單位)往往是 OpenAI 縮小模型的三倍。
國家擁抱
甚至在 R1 引起全球關注之前,就有跡象表明 DeepSeek 已經獲得了中國政府的青睞。今年 1 月,據國家媒體報導,梁文峰作為人工智慧領域的指定代表,先於知名企業的領導人,出席了在北京與中國總理李強舉行的會議。
隨後,對其模型成本競爭力的大肆宣揚,讓中國政府更加相信自己可以超越美國,中國公司和政府機構以其他公司無法企及的速度採用 DeepSeek 模型。
至少有 13 個中國城市政府和 10 家國有能源公司表示已在其系統中部署了 DeepSeek,而科技巨頭聯想、百度和騰訊(中國最大社交媒體應用微信的所有者)也已將 DeepSeek 的模型集成到其產品中。
新加坡李光耀公共政策學院(Lee Kuan Yew School of Public Policy)的中國決策專家阿爾弗雷德·吳(Alfred Wu)說,中國領導人習近平和李強 “已經表示他們認可 DeepSeek”。“現在每個人都認可它”。
從韓國到義大利,各國政府都以隱私為由將 DeepSeek 從本國應用商店中移除。