近期,AI領(lǐng)域迎來了一項重大突破,月之暗面團隊正式推出了其最新研發(fā)的開源代碼大模型——Kimi-Dev-72B。這款模型在軟件工程基準測試SWE-bench Verified中取得了令人矚目的成績,以60.4%的準確率刷新了全球開源模型的最高紀錄。
據(jù)了解,Kimi-Dev-72B是專為軟件工程任務(wù)量身打造的,盡管其參數(shù)量僅為720億,但在SWE-bench Verified測試中,卻成功超越了近期發(fā)布的DeepSeek-R1-0528模型。后者雖然擁有高達6710億的參數(shù)量,但在此次測試中僅以57.6%的準確率落后于Kimi-Dev-72B。
Kimi-Dev-72B之所以能夠在測試中脫穎而出,得益于其采用的大規(guī)模強化學(xué)習(xí)訓(xùn)練方法。該模型能夠在真實的代碼環(huán)境中自動修復(fù)Docker存儲庫,并且只有在完整測試套件通過后才給予獎勵。這種訓(xùn)練方式極大地提升了模型輸出的正確性和魯棒性,使其更加貼合實際的軟件開發(fā)標準。
Kimi-Dev-72B的模型權(quán)重和源代碼已經(jīng)全面開源,并在Hugging Face與GitHub平臺上向開發(fā)者社區(qū)開放下載和部署。這一舉措無疑將極大地推動軟件工程領(lǐng)域的發(fā)展,為開發(fā)者們提供更加高效、智能的工具。