国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

小型開源模型借GRPO算法,在《時(shí)空謎題》中超越OpenAI等頂尖推理模型

   時(shí)間:2025-03-27 21:05 來源:ITBEAR作者:江紫萱

近日,海外知名大模型產(chǎn)品平臺(tái)OpenPipe公布了一項(xiàng)令人矚目的研究成果,該研究成功地在重度推理游戲《時(shí)空謎題》中,利用一種名為GRPO的強(qiáng)化學(xué)習(xí)算法,使小型開源模型的表現(xiàn)超越了多個(gè)業(yè)界領(lǐng)先的推理模型,包括DeepSeek R1、OpenAI的o1和o3-mini,以及Anthropic的Claude Sonnet 3.7。

這項(xiàng)研究的作者是來自Ender Research的強(qiáng)化學(xué)習(xí)專家Brad Hilton和OpenPipe的創(chuàng)始人Kyle Corbitt。他們的研究表明,通過精心設(shè)計(jì)的訓(xùn)練策略,不僅顯著縮小了與Claude Sonnet 3.7在推理能力上的差距,還實(shí)現(xiàn)了超過百倍的成本優(yōu)化。

報(bào)告詳細(xì)闡述了任務(wù)設(shè)計(jì)與超參數(shù)調(diào)整的過程,并分享了基于torchtune框架構(gòu)建的完整訓(xùn)練方案,為業(yè)界提供了寶貴的參考。

自O(shè)penAI去年發(fā)布o(jì)系列推理模型以來,大型語(yǔ)言模型(LLMs)在強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練下迎來了飛速發(fā)展。然而,盡管取得了顯著進(jìn)展,邏輯演繹能力仍是頂尖模型的短板。當(dāng)前LLMs普遍難以穩(wěn)定追蹤細(xì)節(jié)、保持邏輯嚴(yán)密以及實(shí)現(xiàn)多步銜接的可靠性。即便是頂尖模型,在生成長(zhǎng)輸出時(shí)也常出現(xiàn)低級(jí)錯(cuò)誤。

面對(duì)這一挑戰(zhàn),研究團(tuán)隊(duì)決定從小型開源模型入手,探索其在全新推理任務(wù)上的潛力。他們選擇了《時(shí)空謎題》作為實(shí)驗(yàn)平臺(tái),這是一款靈感源自經(jīng)典桌游Clue的單人邏輯謎題,不僅包含了標(biāo)準(zhǔn)的推理要素,還增加了時(shí)間和動(dòng)機(jī)兩個(gè)維度,使得謎題更加復(fù)雜且富有挑戰(zhàn)性。

在基準(zhǔn)測(cè)試中,Claude Sonnet 3.7在設(shè)定6.4萬(wàn)個(gè)token的情況下表現(xiàn)最佳,而DeepSeek R1與OpenAI的o1和o3-mini表現(xiàn)相近。相比之下,未經(jīng)調(diào)優(yōu)的小型開源模型Qwen則顯得遜色。然而,研究團(tuán)隊(duì)相信,只要方法得當(dāng),這些小型模型同樣能達(dá)到前沿水平。

為了訓(xùn)練出具有前沿推理能力的模型,研究團(tuán)隊(duì)采用了強(qiáng)化學(xué)習(xí)方法,并選用了DeepSeek模型的GRPO算法。他們讓大語(yǔ)言模型針對(duì)每個(gè)謎題生成多個(gè)回復(fù),并通過正向強(qiáng)化和懲罰機(jī)制來引導(dǎo)模型學(xué)習(xí)正確的推理過程。在訓(xùn)練過程中,他們還使用了vLLM推理引擎、HuggingFace Transformers AutoTokenizer等工具來處理回復(fù)和數(shù)據(jù)打包。

經(jīng)過上百次的迭代訓(xùn)練,研究團(tuán)隊(duì)成功地將Qwen模型提升到了前沿推理水平。在最佳狀態(tài)下,140億參數(shù)的Qwen模型在1.6萬(wàn)個(gè)token的設(shè)置下已接近Claude Sonnet 3.7的性能,而320億參數(shù)的模型則幾乎達(dá)到了Sonnet的結(jié)果。研究還發(fā)現(xiàn),在訓(xùn)練過程中,輸出長(zhǎng)度呈現(xiàn)出有趣的規(guī)律,這可能與模型的推理能力提升有關(guān)。

為了從定性角度評(píng)估邏輯推理能力的提升,研究團(tuán)隊(duì)還讓Claude Sonnet 3.7對(duì)訓(xùn)練后的Qwen 32B模型的推論進(jìn)行識(shí)別。結(jié)果顯示,Sonnet從基礎(chǔ)模型中識(shí)別出的推論大多被判定為錯(cuò)誤,而從訓(xùn)練后的模型中識(shí)別出的推論則大多被判定為邏輯合理。

最后,研究團(tuán)隊(duì)還估算了Qwen模型的成本效益。他們發(fā)現(xiàn),在假設(shè)按需部署具有足夠吞吐量的情況下,訓(xùn)練后的模型在準(zhǔn)確性和推理成本之間實(shí)現(xiàn)了顯著的權(quán)衡優(yōu)化。

這項(xiàng)研究不僅展示了強(qiáng)化學(xué)習(xí)在訓(xùn)練小型開源模型處理復(fù)雜演繹任務(wù)方面的巨大潛力,還為業(yè)界提供了寶貴的經(jīng)驗(yàn)和參考。未來,隨著技術(shù)的不斷發(fā)展,我們有理由相信,更多的小型模型將能夠通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)前沿水平的推理能力。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群

主站蜘蛛池模板: 亚洲国产tv | 亚洲视频国产视频 | 精品视频 九九九 | 欧美人成一本免费观看视频 | 久久精品免费观看 | 在线毛片网站 | 精品久久一区二区 | 亚洲一区二区福利视频 | 亚洲图片在线播放 | 最新在线精品国自拍视频 | 亚洲午夜在线 | 夜爱视频 | 久久久久亚洲精品影视 | 伊人无码高清 | 亚洲区精品久久一区二区三区 | 日韩成人在线观看视频 | 久久久久久久999 | 婷婷丁香激情五月 | 国产午夜亚洲精品理论片不卡 | 一本之道无吗一二三区 | 国产欧美曰韩一区二区三区 | 羞羞网站在线观看 | 欧美亚洲一区二区三区四 | 亚洲日韩中文字幕天堂不卡 | 国产黄色免费看 | 亚洲字幕| 欧美日韩视频一区二区 | 国产乱码精品一区二区 | 在线国产中文字幕 | 欧美色欧美亚洲另类二区不卡 | 亚洲男人天堂久久 | 一二三区在线视频 | 成人四虎| 一区二区高清在线 | 欧美大片一区二区三区 | 婷婷第四色 | 久久久久免费视频 | 亚洲天堂伊人 | 免费观看男女羞羞的视频网站 | 精品国产成人 | 日本a级片免费 |