欧美精品久久一区二区三区 ,久久免费精品,精品蜜桃

近日，海外知名大模型產(chǎn)品平臺(tái)OpenPipe公布了一項(xiàng)令人矚目的研究成果，該研究成功地在重度推理游戲《時(shí)空謎題》中，利用一種名為GRPO的強(qiáng)化學(xué)習(xí)算法，使小型開源模型的表現(xiàn)超越了多個(gè)業(yè)界領(lǐng)先的推理模型，包括DeepSeek R1、OpenAI的o1和o3-mini，以及Anthropic的Claude Sonnet 3.7。

這項(xiàng)研究的作者是來自Ender Research的強(qiáng)化學(xué)習(xí)專家Brad Hilton和OpenPipe的創(chuàng)始人Kyle Corbitt。他們的研究表明，通過精心設(shè)計(jì)的訓(xùn)練策略，不僅顯著縮小了與Claude Sonnet 3.7在推理能力上的差距，還實(shí)現(xiàn)了超過百倍的成本優(yōu)化。

報(bào)告詳細(xì)闡述了任務(wù)設(shè)計(jì)與超參數(shù)調(diào)整的過程，并分享了基于torchtune框架構(gòu)建的完整訓(xùn)練方案，為業(yè)界提供了寶貴的參考。

自O(shè)penAI去年發(fā)布o(jì)系列推理模型以來，大型語(yǔ)言模型（LLMs）在強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練下迎來了飛速發(fā)展。然而，盡管取得了顯著進(jìn)展，邏輯演繹能力仍是頂尖模型的短板。當(dāng)前LLMs普遍難以穩(wěn)定追蹤細(xì)節(jié)、保持邏輯嚴(yán)密以及實(shí)現(xiàn)多步銜接的可靠性。即便是頂尖模型，在生成長(zhǎng)輸出時(shí)也常出現(xiàn)低級(jí)錯(cuò)誤。

面對(duì)這一挑戰(zhàn)，研究團(tuán)隊(duì)決定從小型開源模型入手，探索其在全新推理任務(wù)上的潛力。他們選擇了《時(shí)空謎題》作為實(shí)驗(yàn)平臺(tái)，這是一款靈感源自經(jīng)典桌游Clue的單人邏輯謎題，不僅包含了標(biāo)準(zhǔn)的推理要素，還增加了時(shí)間和動(dòng)機(jī)兩個(gè)維度，使得謎題更加復(fù)雜且富有挑戰(zhàn)性。

在基準(zhǔn)測(cè)試中，Claude Sonnet 3.7在設(shè)定6.4萬(wàn)個(gè)token的情況下表現(xiàn)最佳，而DeepSeek R1與OpenAI的o1和o3-mini表現(xiàn)相近。相比之下，未經(jīng)調(diào)優(yōu)的小型開源模型Qwen則顯得遜色。然而，研究團(tuán)隊(duì)相信，只要方法得當(dāng)，這些小型模型同樣能達(dá)到前沿水平。

為了訓(xùn)練出具有前沿推理能力的模型，研究團(tuán)隊(duì)采用了強(qiáng)化學(xué)習(xí)方法，并選用了DeepSeek模型的GRPO算法。他們讓大語(yǔ)言模型針對(duì)每個(gè)謎題生成多個(gè)回復(fù)，并通過正向強(qiáng)化和懲罰機(jī)制來引導(dǎo)模型學(xué)習(xí)正確的推理過程。在訓(xùn)練過程中，他們還使用了vLLM推理引擎、HuggingFace Transformers AutoTokenizer等工具來處理回復(fù)和數(shù)據(jù)打包。

經(jīng)過上百次的迭代訓(xùn)練，研究團(tuán)隊(duì)成功地將Qwen模型提升到了前沿推理水平。在最佳狀態(tài)下，140億參數(shù)的Qwen模型在1.6萬(wàn)個(gè)token的設(shè)置下已接近Claude Sonnet 3.7的性能，而320億參數(shù)的模型則幾乎達(dá)到了Sonnet的結(jié)果。研究還發(fā)現(xiàn)，在訓(xùn)練過程中，輸出長(zhǎng)度呈現(xiàn)出有趣的規(guī)律，這可能與模型的推理能力提升有關(guān)。

為了從定性角度評(píng)估邏輯推理能力的提升，研究團(tuán)隊(duì)還讓Claude Sonnet 3.7對(duì)訓(xùn)練后的Qwen 32B模型的推論進(jìn)行識(shí)別。結(jié)果顯示，Sonnet從基礎(chǔ)模型中識(shí)別出的推論大多被判定為錯(cuò)誤，而從訓(xùn)練后的模型中識(shí)別出的推論則大多被判定為邏輯合理。

最后，研究團(tuán)隊(duì)還估算了Qwen模型的成本效益。他們發(fā)現(xiàn)，在假設(shè)按需部署具有足夠吞吐量的情況下，訓(xùn)練后的模型在準(zhǔn)確性和推理成本之間實(shí)現(xiàn)了顯著的權(quán)衡優(yōu)化。

這項(xiàng)研究不僅展示了強(qiáng)化學(xué)習(xí)在訓(xùn)練小型開源模型處理復(fù)雜演繹任務(wù)方面的巨大潛力，還為業(yè)界提供了寶貴的經(jīng)驗(yàn)和參考。未來，隨著技術(shù)的不斷發(fā)展，我們有理由相信，更多的小型模型將能夠通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)前沿水平的推理能力。

国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

小型開源模型借GRPO算法，在《時(shí)空謎題》中超越OpenAI等頂尖推理模型