久久九九综合,五月天激情婷婷大综合,欧美成人一区二区三区

小米大模型團(tuán)隊(duì)突破音頻推理，強(qiáng)化學(xué)習(xí)助力登頂MMAU榜首！

時(shí)間：2025-03-17 13:30 來源：ITBEAR作者：唐云澤

小米大模型團(tuán)隊(duì)在音頻推理領(lǐng)域取得了一項(xiàng)引人注目的成就。近日，該團(tuán)隊(duì)宣布，他們受Deepseek-R1的啟發(fā)，在國際權(quán)威的MMAU音頻理解評測中取得了突破，以64.5%的準(zhǔn)確率登頂榜首，并且已經(jīng)將相關(guān)技術(shù)開源。

MMAU評測集，即大規(guī)模多任務(wù)音頻理解和推理評測集，是衡量音頻推理能力的重要標(biāo)尺。它包含了一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本，并結(jié)合人類專家標(biāo)注的問答對，測試模型在27種技能上的表現(xiàn)，旨在推動模型達(dá)到接近人類專家的邏輯分析水平。然而，這一評測標(biāo)準(zhǔn)對人類來說也并非易事，人類專家在MMAU上的準(zhǔn)確率也不過82.23%。

在小米大模型團(tuán)隊(duì)登頂之前，MMAU官網(wǎng)榜單上的佼佼者是來自O(shè)penAI的GPT-4o，其準(zhǔn)確率為57.3%，緊隨其后的是Google DeepMind的Gemini 2.0 Flash，準(zhǔn)確率為55.6%。而來自阿里的Qwen2-Audio-7B模型，在此評測集上的表現(xiàn)則為49.2%。

小米大模型團(tuán)隊(duì)并未止步于Qwen2-Audio-7B模型的表現(xiàn)。他們利用該模型的開源特性，嘗試使用清華大學(xué)發(fā)布的AVQA數(shù)據(jù)集進(jìn)行微調(diào)。AVQA數(shù)據(jù)集雖然僅包含3.8萬條訓(xùn)練樣本，但通過全量有監(jiān)督微調(diào)（SFT），Qwen2-Audio-7B模型在MMAU上的準(zhǔn)確率提升到了51.8%。這一初步成果為團(tuán)隊(duì)后續(xù)的研究奠定了堅(jiān)實(shí)的基礎(chǔ)。

DeepSeek-R1的發(fā)布為小米大模型團(tuán)隊(duì)帶來了新的啟示。該模型采用的Group Relative Policy Optimization（GRPO）方法，使得模型能夠通過“試錯(cuò)-獎勵”機(jī)制自主進(jìn)化，涌現(xiàn)出類似人類的反思和多步驗(yàn)證等推理能力。小米大模型團(tuán)隊(duì)深受啟發(fā)，嘗試將DeepSeek-R1的GRPO算法遷移到Qwen2-Audio-7B模型上。

經(jīng)過不懈的努力，小米大模型團(tuán)隊(duì)最終取得了令人矚目的成果。在僅使用AVQA的3.8萬條訓(xùn)練樣本的情況下，強(qiáng)化學(xué)習(xí)微調(diào)后的模型在MMAU評測集上實(shí)現(xiàn)了64.5%的準(zhǔn)確率。這一成績不僅遠(yuǎn)超Qwen2-Audio-7B模型微調(diào)前的表現(xiàn)，也比目前榜單上第一名的商業(yè)閉源模型GPT-4o有近10個(gè)百分點(diǎn)的優(yōu)勢。

小米大模型團(tuán)隊(duì)的這一成就，不僅展示了他們在音頻推理領(lǐng)域的強(qiáng)大實(shí)力，也為整個(gè)AI領(lǐng)域帶來了新的啟示。他們通過開源技術(shù)和創(chuàng)新算法的結(jié)合，推動了音頻理解和推理能力的提升，為未來的AI發(fā)展開辟了新的道路。

更多>同類內(nèi)容

英特爾Panther Lake處理器：2026年初大規(guī)模	華科大發(fā)布“玻璃光盤”技術(shù)，容量暴增10倍
百尊無憂灰隱管式熱水器：家居美學(xué)新寵，靜	OPPO A5系列首銷福利：30天內(nèi)購機(jī)享一年進(jìn)

国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

小米大模型團(tuán)隊(duì)突破音頻推理，強(qiáng)化學(xué)習(xí)助力登頂MMAU榜首！

小米大模型團(tuán)隊(duì)突破音頻推理，強(qiáng)化學(xué)習(xí)助力登頂MMAU榜首！