11 月 27 日消息,DeepSeek 發佈了 DeepSeekMathV2,主打可自我驗證的數學推理訓練框架。
團隊認為,僅追求最終答案正確率難以保證推理鏈條的嚴謹性,尤其在定理證明等需要逐步推導的任務中更為突出。模型通過構建基於 LLM 的驗證器,對生成的證明進行自動審查,並利用擴展的驗證計算持續生成高難度訓練樣本提升驗證器能力。
據記者瞭解,DeepSeekMathV2 基於 DeepSeekV3.2ExpBase,在 2025 年國際數學奧林匹克競賽(IMO 2025)與 2024 年中國數學奧林匹克競賽(CMO 2024)中均達到金牌水準,並在 2024 年普特南數學競賽(Putnam 2024)中取得 118/120(近乎滿分)的優異成績。官方稱,儘管尚有大量工作待推進,當前成果已表明:可自驗證的數學推理是一條切實可行的研究路徑,有望為構建更強大、更可靠的數學智能系統奠定基礎。


來源:中國IT之家