10 月 9 日消息,今日,螞蟻集團發佈萬億參數的通用語言模型 Ling-1T。Ling-1T 是螞蟻百靈大模型 Ling 2.0 系列的第一款旗艦模型,也是螞蟻百靈團隊迄今為止推出的規模最大、能力最強的非思考大模型。
測評顯示,在有限輸出 Token 條件下,Ling-1T 於多項複雜推理基準中取得 SOTA 表現,展示出在高效思考與精確推理之間的卓越平衡。另外,在代碼生成、軟體開發、競賽數學、專業數學、邏輯推理等多項高難度基準測試上,Ling-1T 均取得領先成績,多項指標位居開源模型的榜首。
以競賽數學榜單 AIME 25 (American Invitation Math Examination 25)為例,Ling-1T 以平均 4000+ Token 的消耗達到了 70.42% 的準確率,優於 Gemini-2.5-Pro(平均 5000+ Token,準確率 70.10%)。Ling-1T 用更少的 Token 實現了更高的準確率,展現出在推理精度和思考效率綜合能力上的優勢。
據螞蟻百靈團隊透露,Ling-1T 沿用 Ling 2.0 架構,在 20T+tokens 高質量、高推理濃度的語料上完成預訓練,支持最高 128K 上下文窗口,通過“中訓練 + 後訓練”的演進式思維鏈(Evo-CoT)極大提升模型高效思考和精准推理能力。
螞蟻百靈團隊還透露,在萬億級旗艦模型的研發過程中,多次觀察到:擴大模型規模與強化推理能力,往往會帶來出乎意料的跨領域泛化表現。例如,在智能體工具調用任務 BFCL V3 上,Ling-1T 雖未在中訓練階段引入大量操作軌跡,僅通過少量指令微調,即可達到約 70% 的調用準確率,展現出卓越的推理遷移與泛化能力。Ling-1T 能精准理解複雜自然語言指令,自主完成綜合性任務:將模糊的邏輯問題轉化為功能完備的可視化組件,為多端環境生成高相容性前端代碼,或根據指定風格與語氣創作行銷文案、文學續篇及多語種文本。團隊認為,這些能力構成了通用智能體的關鍵基礎。
螞蟻百靈團隊稱,儘管 Ling-1T 在高效推理、跨領域泛化與訓練效率方面取得顯著進展,但仍存在以下局限:
attention 架構仍基於 GQA
在超長上下文和複雜推理任務中表現穩定,但推理成本偏高。後續將引入混合注意力架構,以提升訓練推理效率、降低算力開銷。
智能體能力仍需強化
當前版本在多輪交互、長期記憶和複雜工具使用等方面仍有限,近期將持續提升工具理解與使用能力,增強模型的主動性與泛化能力。
指令遵循與身份認知問題
部分場景下仍可能出現指令執行偏差或角色混淆。後續將通過強化式身份對齊與安全微調改進模型一致性。
未來版本將繼續在架構、推理與對齊層面迭代,推動 Ling 系列邁向更高水準的通用智能。
來源:中國IT之家