国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

上海AI實(shí)驗(yàn)室攜手高校,創(chuàng)新技術(shù)破解AI強(qiáng)化學(xué)習(xí)熵崩潰挑戰(zhàn)

   時(shí)間:2025-06-04 08:25 來(lái)源:ITBEAR作者:陸辰風(fēng)

近期,上海人工智能實(shí)驗(yàn)室攜手清華大學(xué)及美國(guó)伊利諾伊大學(xué)香檳分校的研究團(tuán)隊(duì),共同研發(fā)出了一種創(chuàng)新方法,用以解決大型語(yǔ)言模型在強(qiáng)化學(xué)習(xí)過(guò)程中的策略熵崩潰問(wèn)題。這一突破性的進(jìn)展,得益于Clip-Cov和KL-Cov兩項(xiàng)技術(shù)的引入。

隨著大型語(yǔ)言模型(LLMs)在邏輯推理能力上的顯著提升,強(qiáng)化學(xué)習(xí)(RL)的應(yīng)用場(chǎng)景得以大幅擴(kuò)展,從原先的單一任務(wù)擴(kuò)展到更為復(fù)雜多變的環(huán)境。這一轉(zhuǎn)變,無(wú)疑為模型賦予了更強(qiáng)的泛化能力和邏輯推理能力。然而,強(qiáng)化學(xué)習(xí)的高計(jì)算資源需求以及策略熵下降的問(wèn)題,成為了制約其進(jìn)一步發(fā)展的關(guān)鍵因素。

策略熵,作為衡量模型在利用已知策略和探索新策略之間平衡狀態(tài)的指標(biāo),其過(guò)低會(huì)導(dǎo)致模型陷入對(duì)已有策略的過(guò)度依賴,從而失去對(duì)新策略的探索能力。這種探索與利用之間的權(quán)衡,正是強(qiáng)化學(xué)習(xí)的基礎(chǔ)所在。因此,如何有效控制策略熵,成為了強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中的一大難題。

為解決這一問(wèn)題,研究團(tuán)隊(duì)提出了一個(gè)全新的經(jīng)驗(yàn)公式:R = ?a exp H + b,其中R代表下游任務(wù)的表現(xiàn),H為策略熵,a和b為擬合系數(shù)。該公式揭示了策略性能與熵值之間的微妙關(guān)系,并指出熵耗盡是導(dǎo)致性能瓶頸的主要原因。在此基礎(chǔ)上,團(tuán)隊(duì)進(jìn)一步分析了熵的動(dòng)態(tài)變化,發(fā)現(xiàn)其受到動(dòng)作概率與logits變化協(xié)方差的影響。

針對(duì)這一發(fā)現(xiàn),團(tuán)隊(duì)創(chuàng)新性地提出了Clip-Cov和KL-Cov兩項(xiàng)技術(shù)。前者通過(guò)裁剪高協(xié)方差token來(lái)維持熵水平,后者則通過(guò)施加KL懲罰來(lái)達(dá)到同樣的效果。實(shí)驗(yàn)結(jié)果顯示,這兩項(xiàng)技術(shù)在Qwen2.5模型和DAPOMATH數(shù)據(jù)集上均取得了顯著成效,特別是在AIME24和AIME25等高難度基準(zhǔn)測(cè)試中,32B模型的性能提升高達(dá)15.0%。

為進(jìn)一步驗(yàn)證這兩項(xiàng)技術(shù)的有效性,研究團(tuán)隊(duì)還在包括Qwen2.5、Mistral、LLaMA和DeepSeek在內(nèi)的11個(gè)開源模型上進(jìn)行了測(cè)試,這些模型的參數(shù)規(guī)模從0.5B到32B不等,涵蓋了數(shù)學(xué)和編程任務(wù)的8個(gè)公開基準(zhǔn)測(cè)試。實(shí)驗(yàn)結(jié)果表明,Clip-Cov和KL-Cov技術(shù)均能在不同模型上維持更高的熵水平,從而顯著提升模型的性能。

在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)采用了veRL框架和零樣本設(shè)置,并結(jié)合了GRPO、REINFORCE++等算法來(lái)優(yōu)化策略性能。實(shí)驗(yàn)結(jié)果顯示,KL-Cov方法在基線熵值趨于平穩(wěn)時(shí),仍能保持10倍以上的熵值,充分證明了其有效性。

此次研究不僅成功解決了策略熵崩潰問(wèn)題,還為強(qiáng)化學(xué)習(xí)在語(yǔ)言模型中的擴(kuò)展提供了堅(jiān)實(shí)的理論支持。研究團(tuán)隊(duì)強(qiáng)調(diào),熵動(dòng)態(tài)是制約性能提升的關(guān)鍵瓶頸,未來(lái)需要繼續(xù)探索更為有效的熵管理策略,以推動(dòng)語(yǔ)言模型的智能化發(fā)展。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群

主站蜘蛛池模板: 在线资源你懂的 | 深爱婷婷网 | 男人天堂第七色 | 欧美视频第一页 | 亚洲第一中文字幕 | 精品在线视频一区 | 国产亚洲精品美女 | 欧美一区亚洲二区 | 久久国产综合精品欧美 | 中文字幕+乱码+中文乱码www | 国内精品久久久久影院一蜜桃 | 亚洲大香伊人蕉在人依线 | 在线成人毛片 | 1000部羞羞视频在线看视频 | 五月亭亭六月丁香 | 国产a一级毛片午夜剧场14 | 亚洲精品第一页 | 日韩一区国产二区欧美三区 | 亚洲一级片免费看 | 欧美综合网站 | 中文字幕综合久久久久 | 午夜欧美日韩在线视频播放 | 99久久999久久久综合精品涩 | 大陆一级毛片免费视频观看 | 日韩欧美亚洲国产精品字幕久久久 | 五月婷婷六月香 | 日韩在线视频线视频免费网站 | 久久的精品99精品66 | 中文字幕在线精品不卡 | 欧美四区| 午夜视频入口 | 亚洲福利天堂 | 国产成人久久精品区一区二区 | 亚洲精品国产高清嫩草影院 | 中文字幕不卡免费视频 | 日韩一级精品久久久久 | 欧美一区二区三区久久久 | 视频二区欧美 | 丁香啪啪 | 丁香导航 | 欧美视频在线一区 |