3月24日晚間,杭州深度求索人工智慧基礎技術研究有限公司(以下簡稱“深度求索”)發佈了模型更新——DeepSeek-V3-0324。本次更新為DeepSeek V3模型的版本更新,並非市場此前一直期待的DeepSeek-V4或R2。目前已在Hugging Face上開源,並迅速登上了Trending榜單。據悉,其開源版本模型體積為6850億參數。
同日,DeepSeek在其官方交流群宣佈稱,DeepSeek V3模型已完成小版本升級,該版本的最新模型也已經同步至官網、App 和小程式,關閉“深度思考”就可體驗。
此次發佈的版本更新,在性能上,編程能力的優化成了最大亮點,新版本DeepSeek-V3-0324生成前端代碼的能力大大提升。
不少自媒體博主在社交平臺上發帖認為,DeepSeek-V3-0324 模型在前端代碼的生成能力上有了質的提升,審美方面也提升了不少,甚至有博主測評稱可以媲美 Claude 3.7 Sonnet思維鏈版本。有不少用戶開始嘗試將新模型與此前發佈的模型結合解鎖新的玩法。有用戶稱用DeepSeek-V3-0324 模型嘗試編寫了800多行代碼,整個過程沒有出現任何故障。“這是免費的、開源的、超快的。很高興看到這些開源模型如何向大型科技公司施壓,以更低的成本構建更好的模型。”該位用戶稱。
記者此前曾報導,初代DeepSeek-V3發佈於2024年12月26日晚間,這款模型自上線後便以高性價比火速“出圈”。根據官方技術論文披露,DeepSeek-V3模型的總訓練成本為557.6萬美元,而GPT-4o等模型的訓練成本約為1億美元。深度求索表示,“這是一個全新的開始。”其後,DeepSeek於2025年1月發佈了性能比肩OpenAI o1正式版的DeepSeek-R1模型,該模型在後訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。
來源:中國澎湃新聞