OpenAI今日發佈了GPT5.1-Codex-Max,這是一款面向長時間運行任務設計的新一代Agentic編碼模型。相較於之前的模型,GPT5.1-Codex-Max採用了“壓縮(compaction)”技術,可在多個上下文窗口間工作,甚至能在單次任務中可靠處理百萬級別的Token。OpenAI表示,該模型不僅性能提升,還實現了更快、更高效的Token利用率。
據瞭解,GPT5.1-Codex-Max訓練過程涵蓋了真實世界的軟體工程任務,如PR創建、代碼評審、前端開發及問答等,並在眾多前沿編程評測中表現超越此前的模型。例如,該模型在SWE-Bench Verified(樣本數500)上獲得77.9%的得分,在SWE-Lancer IC SWE測評中達到79.9%,在TerminalBench 2.0測評中則取得58.1%的成績,均高於GPT-5.1-Codex此前的表現。
除支持Unix平臺外,GPT5.1-Codex-Max還專門針對Windows環境進行了訓練。在複雜重構及長時間運行的agent迴圈中,大多數市面上的編碼模型受限於上下文窗口,難以持續工作。而GPT5.1-Codex-Max能夠在接近窗口限制時自動壓縮會話內容,從而自主運行數小時甚至數十小時。據OpenAI內部測試數據顯示,該模型可持續運行超過24小時。
此外,得益於推理能力提升,GPT5.1-Codex-Max在SWE-Bench Verified上完成相同任務時,使用的思考Token比GPT-5.1-Codex減少了30%。通過“Extra High(xhigh)”推理模式,模型在複雜任務中可投入更深入的思考。
目前,GPT5.1-Codex-Max已在Codex CLI、IDE擴展、雲端和代碼評審等產品中上線,支持ChatGPT Plus、Pro、Business、Edu和Enterprise高級訂閱用戶。同時,OpenAI也將於近期將該模型引入API,並在Codex中替換為默認模型。
來源:中國科技刀哥