6月28日消息,當行業在討論誰的模型更聰明時,DeepSeek仍然把目光投向更現實的問題:如何讓大模型跑得更快。
昨日,DeepSeek官方在Github低調發表了一篇最新論文,介紹其推理加速框架DSpark,試圖解決大語言模型在高併發場景下的推理效率瓶頸。
從作者署名來看,這篇論文由DeepSeek與北京大學聯合發佈,值得注意的是,DeepSeek創始人梁文鋒也位列作者名單。
在論文中,團隊開源了DSpark模型權重,並同步發佈了面向推測解碼、由演算法驅動的訓練代碼倉庫DeepSpec。
DeepSeek首先解釋了需要解決的問題。大語言模型採用自回歸方式生成文本:每一個新詞元的生成,都需要基於全部前置詞元完成一次完整前向傳播,結果是輸出越長,等待越久。
由此帶來GPU利用率低下、用戶等待時間過長的問題,這是大語言模型線上服務的核心性能瓶頸,在即時對話助手、多輪智能體工作流等低時延敏感場景中尤為突出。
目前的主流方案分為自回歸草稿模型(Eagle3)、並行草稿模型(DFlash)兩條路線,二者各有缺陷,包括生成品質瓶頸和系統效率瓶頸等,且現有方案均缺乏負載自適應校驗機制。
基於此,DeepSeek提出DSpark推測解碼框架,採用半自回歸生成架構:保留並行主幹的高吞吐優勢,同時加入羽量級串行模組,逐詞元注入首碼依賴資訊。
該模組提供兩種實現——僅依賴前一個詞元的馬爾可夫頭,以及通過迴圈狀態累積完整首碼資訊的RNN頭。
實驗表明,兩層Transformer深度的DSpark即可在所有測試領域超過五層DFlash的接受長度。
目前,DeepSeek已經將DSpark部署到DeepSeek-V4線上服務系統中,並基於真實用戶流量評估其實際性能。
結果顯示,相較於現有生產環境基線系統MTP-1,在相同吞吐量條件下,DSpark將用戶端生成速度提升了60%-85%。
此外,DeepSeek也將這一框架部署在其他模型上,以阿裏旗下的Qwen3-4B、8B、14B三個模型為例,相較於自回歸草稿模型,DSpark平均單輪可接受詞元長度分別提升了30.9%、26.7%、30%;相較於並行草稿模型,DSpark分別提升了16.3%、18.4%、18.3%。
來源:中國快科技