微軟亞洲研究院的數(shù)學(xué)與人工智能研究團(tuán)隊(duì)近日取得了一項(xiàng)新的技術(shù)突破,他們專(zhuān)為解決數(shù)學(xué)問(wèn)題設(shè)計(jì)并開(kāi)發(fā)了名為rStar-Math的技術(shù)。這項(xiàng)技術(shù)于1月10日通過(guò)官方博文正式對(duì)外公布。
與微軟此前推出的Phi-4技術(shù)相比,rStar-Math采用了蒙特卡洛樹(shù)搜索(Monte Carlo Tree Search)進(jìn)行推理。這種方法模擬了人類(lèi)逐步解決問(wèn)題的思維方式,通過(guò)將復(fù)雜問(wèn)題分解成更小的部分,逐步求解,從而提高了解決數(shù)學(xué)問(wèn)題的效率。
在開(kāi)發(fā)過(guò)程中,研究團(tuán)隊(duì)要求模型輸出自然語(yǔ)言描述和Python代碼形式的“思維鏈”步驟,并將自然語(yǔ)言作為Python代碼的注釋。他們僅使用Python代碼輸出進(jìn)行訓(xùn)練,這一做法旨在使模型更加清晰地展示其解題過(guò)程。
為了進(jìn)一步提升模型的性能,研究團(tuán)隊(duì)還訓(xùn)練了一個(gè)“策略模型”來(lái)生成數(shù)學(xué)推理步驟,并使用“過(guò)程偏好模型”(PPM)來(lái)選擇最有希望的解題步驟。這兩個(gè)模型通過(guò)四輪“自我進(jìn)化”相互改進(jìn),不斷優(yōu)化其解題能力。
在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)使用了74萬(wàn)道公開(kāi)的數(shù)學(xué)應(yīng)用題及其解答作為初始數(shù)據(jù),并利用上述兩個(gè)模型生成了新的解題步驟。這一做法不僅豐富了訓(xùn)練數(shù)據(jù),還有助于模型更好地理解和解決數(shù)學(xué)問(wèn)題。
測(cè)試結(jié)果顯示,應(yīng)用rStar-Math技術(shù)后,Qwen2.5-Math-7B模型的準(zhǔn)確率從58.8%躍升至90.0%,Phi3-mini-3.8B模型的準(zhǔn)確率也從41.4%提升到86.4%。與OpenAI的o1-preview模型相比,rStar-Math技術(shù)在兩個(gè)模型上的表現(xiàn)分別高出4.5%和0.9%。
為了讓其他研究者能夠使用和改進(jìn)rStar-Math技術(shù),研究團(tuán)隊(duì)已在Hugging Face上宣布,他們計(jì)劃將rStar-Math的代碼和數(shù)據(jù)在GitHub上公開(kāi)。這一舉措將促進(jìn)數(shù)學(xué)與人工智能領(lǐng)域的交流與合作,推動(dòng)相關(guān)技術(shù)的進(jìn)一步發(fā)展。