近日,一款名為Kimi-Dev-72B的全新開(kāi)源代碼大模型震撼發(fā)布,由神秘團(tuán)隊(duì)月之暗面在凌晨悄然推出,專(zhuān)為軟件工程任務(wù)設(shè)計(jì)。
這款模型在業(yè)界權(quán)威的SWE-bench Verified編程基準(zhǔn)測(cè)試中大放異彩,以僅720億參數(shù)的規(guī)模,力壓群雄,成績(jī)超越了不久前發(fā)布的、參數(shù)高達(dá)6710億的新版DeepSeek-R1,樹(shù)立了開(kāi)源模型的新標(biāo)桿。
在SWE-bench Verified測(cè)試中,Kimi-Dev-72B取得了高達(dá)60.4%的驚人分?jǐn)?shù),這一成績(jī)不僅彰顯了其卓越的軟件工程能力,也標(biāo)志著開(kāi)源模型在AI輔助編程領(lǐng)域邁出了重要一步。
Kimi-Dev-72B的成功并非偶然。其背后是月之暗面團(tuán)隊(duì)通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)進(jìn)行的精心優(yōu)化。該模型能夠自主修補(bǔ)Docker中的真實(shí)存儲(chǔ)庫(kù),并且只有當(dāng)整個(gè)測(cè)試套件通過(guò)時(shí)才會(huì)獲得獎(jiǎng)勵(lì),從而確保了解決方案的正確性和穩(wěn)健性,符合現(xiàn)實(shí)世界的開(kāi)發(fā)標(biāo)準(zhǔn)。
目前,Kimi-Dev-72B已在Hugging Face和GitHub上開(kāi)放下載和部署。用戶不僅可以獲取模型權(quán)重和源代碼,技術(shù)報(bào)告也將隨后推出,為社區(qū)提供了寶貴的研究資源。
Kimi-Dev-72B的設(shè)計(jì)理念和技術(shù)細(xì)節(jié)同樣令人矚目。月之暗面團(tuán)隊(duì)巧妙地將BugFixer和TestWriter相結(jié)合,形成了獨(dú)特的雙重設(shè)計(jì)。這一設(shè)計(jì)使得模型在修復(fù)代碼錯(cuò)誤和編寫(xiě)單元測(cè)試方面都能表現(xiàn)出色。同時(shí),通過(guò)中期訓(xùn)練和強(qiáng)化學(xué)習(xí),Kimi-Dev-72B進(jìn)一步增強(qiáng)了其編程能力。
在中期訓(xùn)練階段,月之暗面團(tuán)隊(duì)使用了約1500億個(gè)高質(zhì)量的真實(shí)數(shù)據(jù),以Qwen 2.5-72B基礎(chǔ)模型為起點(diǎn),精心構(gòu)建了數(shù)據(jù)配方,使Kimi-Dev-72B能夠?qū)W習(xí)人類(lèi)開(kāi)發(fā)者如何推理GitHub問(wèn)題、編寫(xiě)代碼修復(fù)和單元測(cè)試。這一階段的訓(xùn)練為后續(xù)的強(qiáng)化學(xué)習(xí)打下了堅(jiān)實(shí)的基礎(chǔ)。
而在強(qiáng)化學(xué)習(xí)階段,Kimi-Dev-72B則專(zhuān)注于提升其代碼編輯能力。月之暗面團(tuán)隊(duì)采用了高效的策略優(yōu)化方法,并重點(diǎn)關(guān)注了僅基于結(jié)果的獎(jiǎng)勵(lì)、高效的提示集以及正例強(qiáng)化等關(guān)鍵設(shè)計(jì)。這些設(shè)計(jì)使得模型在訓(xùn)練過(guò)程中能夠更有效地利用資源,提升性能。
Kimi-Dev-72B在測(cè)試過(guò)程中還采用了自我博弈機(jī)制。這一機(jī)制使得模型能夠協(xié)調(diào)自身Bug修復(fù)和測(cè)試編寫(xiě)的能力,進(jìn)一步提升了其整體性能。