近日,科技界傳來(lái)一則新進(jìn)展,騰訊AI Lab與香港中文大學(xué)攜手,在大型語(yǔ)言模型推理效率方面取得了突破。他們提出了一項(xiàng)名為“無(wú)監(jiān)督前綴微調(diào)”(UPFT)的創(chuàng)新技術(shù),為提升語(yǔ)言模型的推理能力提供了新的思路。
UPFT技術(shù)的核心在于,它并不需要對(duì)整個(gè)推理過(guò)程進(jìn)行全面處理,而是聚焦于模型輸出的前幾個(gè)詞元(token),具體而言,是前8至32個(gè)詞元。這一方法巧妙地捕捉到了不同推理路徑中的共同早期關(guān)鍵步驟,從而在減少計(jì)算開(kāi)銷的同時(shí),實(shí)現(xiàn)了推理性能的提升。這一發(fā)現(xiàn)無(wú)疑為大型語(yǔ)言模型的優(yōu)化帶來(lái)了新的曙光。
眾所周知,大型語(yǔ)言模型在語(yǔ)言理解和生成方面已經(jīng)展現(xiàn)出了強(qiáng)大的能力,但在推理方面仍有待提升。傳統(tǒng)的微調(diào)方法往往需要依賴大量的標(biāo)注數(shù)據(jù)或復(fù)雜的拒絕采樣技術(shù),這無(wú)疑增加了資源消耗的難度。而UPFT則打破了這一局限,它通過(guò)關(guān)注模型輸出的初始詞元,有效地解決了效率和對(duì)昂貴監(jiān)督的依賴問(wèn)題。
研究發(fā)現(xiàn),對(duì)于同一個(gè)問(wèn)題,模型生成的各種推理路徑的初始步驟往往具有很高的相似性。UPFT正是基于這種“前綴自洽性”原理,無(wú)需完整的推理軌跡或大量的標(biāo)注數(shù)據(jù),僅通過(guò)這些初始標(biāo)記進(jìn)行訓(xùn)練,便能夠取得顯著的效果。
UPFT技術(shù)還巧妙地融合了貝葉斯推理原理,將正確推理的概率分解為“覆蓋率”和“準(zhǔn)確性”兩部分。通過(guò)訓(xùn)練早期詞元,UPFT在探索多樣化的推理路徑的同時(shí),確保了結(jié)果的可靠性。實(shí)驗(yàn)數(shù)據(jù)表明,UPFT技術(shù)能夠顯著減少訓(xùn)練中處理的詞元數(shù)量,最高可達(dá)95%,并大幅降低時(shí)間和內(nèi)存需求。
在GSM8K、MATH500、AIME2024和GPQA等推理基準(zhǔn)測(cè)試中,UPFT展現(xiàn)出了卓越的性能。特別是在Qwen2.5-Math-7B-Instruct模型上,UPFT在減少訓(xùn)練和推理詞元數(shù)量的同時(shí),還提升了平均準(zhǔn)確率。在復(fù)雜推理任務(wù)中,UPFT的性能提升尤為明顯,這進(jìn)一步證明了早期推理步驟中蘊(yùn)含著解決問(wèn)題的關(guān)鍵信息。
這一創(chuàng)新成果不僅為大型語(yǔ)言模型的優(yōu)化提供了新的方向,也為人工智能領(lǐng)域的未來(lái)發(fā)展注入了新的活力。我們有理由相信,隨著技術(shù)的不斷進(jìn)步和創(chuàng)新,人工智能將在更多領(lǐng)域展現(xiàn)出更加廣泛的應(yīng)用前景。