4 月 22 日消息,螞蟻集團旗下的百靈大模型今日宣佈,推出一款總參數量 104B、啟動參數 7.4B的 Instruct 模型Ling-2.6-flash。
一周前,代號為 Elephant Alpha 的匿名模型登陸 OpenRouter。上線以來,其調用量持續增長,連續多日位列 Trending 榜首,日均 tokens 調用量達 100B 級別。百靈大模型今日宣佈 Elephant Alpha 正是百靈模型 Ling-2.6-flash 的匿名測試版本。

官方表示,面對持續攀升的 Token 壓力,Ling-2.6-flash 選擇了一條不同的技術路徑:不是單純依賴更長輸出換取更高分數,而是圍繞推理效率、Token 效率與 Agent 場景表現進行系統性優化,在保持競爭力智能水準的同時,盡可能做到更快、更省和更適合真實業務場景。
Ling-2.6-flash 的核心能力體現在三個方面:
混合線性架構,釋放推理效率:通過引入混合線性架構,模型從底層優化計算效率,在 4 卡 H20 條件下推理速度最快可達到340 tokens/s,Prefill 吞吐達到 Nemotron-3-Super 的2.2 倍
Token 效率優化,提升智效比:在訓練過程中對 Token 效率進行了針對性校準,力求以更精簡的輸出完成既定目標。在 Artificial Analysis 的完整評測中,Ling-2.6-flash 僅消耗15M tokens,約為 Nemotron-3-Super 等模型的1/10
面向 Agent 場景進行定向增強:針對當前需求最旺盛的 Agent 應用,在工具調用、多步規劃與任務執行能力上持續打磨,使模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等評測中,即使面對啟動參數更大的模型,依然能夠取得相近甚至 SOTA 級別的表現

Ling-2.6-flash 在 Agent 相關基準上達到同尺寸 SOTA 水準
為方便更多開發者快速體驗 Ling-2.6-flash,百靈大模型將在 OpenRouter 與官方平臺同步提供一周免費 API 調用。
免費期結束後,將按使用量計費:輸入 0.1 美元 / 百萬 tokens,輸出 0.3 美元 / 百萬 tokens,緩存命中 0.02 美元 / 百萬 tokens(按 20% 計費)。
Ling-2.6-flash 官方 API 服務也已正式開放,官方免費期結束後,平臺仍將提供每日 50 萬 tokens 免費額度;超出部分按量計費:輸入 0.6 元 / 百萬 tokens,輸出 1.8 元 / 百萬 tokens。
記者注意到,官方表示,模型的 BF16、FP8、INT4 等版本也將於近期正式開源。
來源:中國IT之家