隨著公眾等待中國人工智能初創公司深度求索(DeepSeek)發佈其下一代模型,該公司推出了一種提高大型語言模型(LLM)推理能力的新方法。
近日發表的一篇論文顯示,深度求索與清華大學的研究人員合作,開發了一種將“生成式獎勵建模”(GRM)和“自我原則點評調優”相結合的技術。這種雙重方法旨在使LLM能夠更好、更快地回答一般查詢問題。
研究人員寫道,由此產生的DeepSeek-GRM模型優於現有方法,憑藉強大的公共獎勵模型“取得了有競爭力的表現”。獎勵建模是一個引導大型語言模型向人類偏好靠近的過程。
研究人員稱,深度求索打算將GRM模型開源,但沒有給出時間表。
與此同時,由於DeepSeek的V3基礎模型和R1推理模型受到全球關注,人們對深度求索的下一步行動有著許多猜測。路透社此前報導說,DeepSeek-R2將很快發佈。DeepSeek-R1的發佈以其極具成本效益的性能震驚了全球科技界,其性能可與領先的模型相媲美。
深度求索一直對傳聞中的R2發佈守口如瓶。
總部位於杭州的深度求索上月升級了其V3模型(名為DeepSeek-V3-0324),稱其提供了更強的推理能力、優化的前端網頁開發,以及升級的中文寫作能力。
來源:參考消息網