近期,軟件開(kāi)發(fā)領(lǐng)域迎來(lái)了一項(xiàng)重大創(chuàng)新,月之暗面團(tuán)隊(duì)推出了Kimi-Dev-72B,這是一款專為軟件工程任務(wù)設(shè)計(jì)的全新開(kāi)源代碼大模型。
在備受矚目的SWE-bench Verified編程基準(zhǔn)測(cè)試中,Kimi-Dev-72B憑借其僅720億的參數(shù)量,一舉奪魁,超越了近期發(fā)布、參數(shù)量高達(dá)6710億的新版DeepSeek-R1,成為全球最高水平的開(kāi)源模型。
Kimi-Dev-72B通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)的精細(xì)調(diào)優(yōu),展現(xiàn)出了卓越的能力。它能夠自主修復(fù)Docker中的真實(shí)存儲(chǔ)庫(kù),并且只有在整個(gè)測(cè)試套件順利通過(guò)后,才會(huì)獲得獎(jiǎng)勵(lì),這一機(jī)制確保了所提供的解決方案既正確又穩(wěn)健。
該模型的設(shè)計(jì)理念和技術(shù)架構(gòu)獨(dú)樹(shù)一幟,融合了BugFixer和TestWriter兩大組件,形成了互補(bǔ)優(yōu)勢(shì)。這一組合不僅讓模型在修復(fù)錯(cuò)誤方面表現(xiàn)出色,同時(shí)在編寫測(cè)試代碼方面也游刃有余。
在訓(xùn)練過(guò)程中,Kimi-Dev-72B接受了約1500億個(gè)高質(zhì)量真實(shí)數(shù)據(jù)的洗禮,這些數(shù)據(jù)涵蓋了廣泛的Bug修復(fù)和單元測(cè)試場(chǎng)景,極大地增強(qiáng)了模型對(duì)實(shí)際開(kāi)發(fā)環(huán)境的理解和適應(yīng)能力。
強(qiáng)化學(xué)習(xí)階段,模型專注于提升代碼編輯能力,特別是在文件本地化和精細(xì)代碼調(diào)整方面,展現(xiàn)出了令人矚目的精準(zhǔn)度和效率。
Kimi-Dev-72B的中期訓(xùn)練策略也起到了關(guān)鍵作用。通過(guò)這一階段的訓(xùn)練,模型進(jìn)一步鞏固了對(duì)復(fù)雜軟件問(wèn)題的理解和處理能力。
目前,開(kāi)發(fā)者們可以在Hugging Face和GitHub平臺(tái)上輕松下載和部署Kimi-Dev-72B,包括模型權(quán)重、源代碼等關(guān)鍵資源,這為軟件開(kāi)發(fā)領(lǐng)域帶來(lái)了前所未有的便利和效率提升。