梁文鋒署名！DeepSeek發表重磅論文：如何讓大模型跑得更快

没有结果

查看所有结果

没有结果

查看所有结果

您當前的位置：全球精英連線 > 文章内容返回

梁文鋒署名！DeepSeek發表重磅論文：如何讓大模型跑得更快

发布：2026-06-29

6月28日消息，當行業在討論誰的模型更聰明時，DeepSeek仍然把目光投向更現實的問題：如何讓大模型跑得更快。

昨日，DeepSeek官方在Github低調發表了一篇最新論文，介紹其推理加速框架DSpark，試圖解決大語言模型在高併發場景下的推理效率瓶頸。

從作者署名來看，這篇論文由DeepSeek與北京大學聯合發佈，值得注意的是，DeepSeek創始人梁文鋒也位列作者名單。

在論文中，團隊開源了DSpark模型權重，並同步發佈了面向推測解碼、由演算法驅動的訓練代碼倉庫DeepSpec。

DeepSeek首先解釋了需要解決的問題。大語言模型採用自回歸方式生成文本：每一個新詞元的生成，都需要基於全部前置詞元完成一次完整前向傳播，結果是輸出越長，等待越久。

由此帶來GPU利用率低下、用戶等待時間過長的問題，這是大語言模型線上服務的核心性能瓶頸，在即時對話助手、多輪智能體工作流等低時延敏感場景中尤為突出。

目前的主流方案分為自回歸草稿模型（Eagle3）、並行草稿模型（DFlash）兩條路線，二者各有缺陷，包括生成品質瓶頸和系統效率瓶頸等，且現有方案均缺乏負載自適應校驗機制。

基於此，DeepSeek提出DSpark推測解碼框架，採用半自回歸生成架構：保留並行主幹的高吞吐優勢，同時加入羽量級串行模組，逐詞元注入首碼依賴資訊。

該模組提供兩種實現——僅依賴前一個詞元的馬爾可夫頭，以及通過迴圈狀態累積完整首碼資訊的RNN頭。

實驗表明，兩層Transformer深度的DSpark即可在所有測試領域超過五層DFlash的接受長度。

目前，DeepSeek已經將DSpark部署到DeepSeek-V4線上服務系統中，並基於真實用戶流量評估其實際性能。

結果顯示，相較於現有生產環境基線系統MTP-1，在相同吞吐量條件下，DSpark將用戶端生成速度提升了60%-85%。

此外，DeepSeek也將這一框架部署在其他模型上，以阿裏旗下的Qwen3-4B、8B、14B三個模型為例，相較於自回歸草稿模型，DSpark平均單輪可接受詞元長度分別提升了30.9%、26.7%、30%；相較於並行草稿模型，DSpark分別提升了16.3%、18.4%、18.3%。

來源：中國快科技

相關推荐

歡迎瀏覽閱讀星空經濟新聞華文網

没有结果

查看所有结果