五月花综合,精品视频亚洲,日本欧美视频在线

AI挑戰(zhàn)《超級(jí)馬力歐兄弟》，Claude系列領(lǐng)先，推理模型為何落敗？

時(shí)間：2025-03-04 16:03 來(lái)源：ITBEAR作者：顧青青

加利福尼亞大學(xué)圣地亞哥分校的Hao人工智能實(shí)驗(yàn)室最近進(jìn)行了一項(xiàng)別開(kāi)生面的研究，他們將AI技術(shù)引入了經(jīng)典游戲《超級(jí)馬力歐兄弟》中，以此作為測(cè)試AI性能的獨(dú)特平臺(tái)。研究結(jié)果顯示，在這次測(cè)試中，Anthropic公司的Claude 3.7版本AI展現(xiàn)出了卓越的能力，緊隨其后的是Claude 3.5版本。相比之下，谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o則未能達(dá)到預(yù)期表現(xiàn)。

值得注意的是，這次實(shí)驗(yàn)所用的并非1985年原版《超級(jí)馬力歐兄弟》，而是在一個(gè)模擬器中運(yùn)行的游戲版本。Hao人工智能實(shí)驗(yàn)室研發(fā)的GamingAgent框架作為橋梁，連接了AI與游戲，使AI能夠操控馬力歐。GamingAgent不僅向AI發(fā)出如“避開(kāi)附近障礙物或敵人”等基本指令，還提供了游戲內(nèi)實(shí)時(shí)截圖。AI則通過(guò)生成Python代碼來(lái)指揮馬力歐的行動(dòng)。

據(jù)實(shí)驗(yàn)室介紹，這種游戲環(huán)境對(duì)AI模型提出了高要求，迫使它們學(xué)習(xí)如何規(guī)劃復(fù)雜的操作并制定有效的游戲策略。一個(gè)有趣的發(fā)現(xiàn)是，像OpenAI的o1這樣的推理模型，雖然在多數(shù)基準(zhǔn)測(cè)試中表現(xiàn)出色，但在此次實(shí)驗(yàn)中卻不如“非推理”模型。研究人員指出，推理模型在實(shí)時(shí)游戲中往往因決策時(shí)間過(guò)長(zhǎng)而表現(xiàn)不佳。在《超級(jí)馬力歐兄弟》這樣的游戲中，時(shí)機(jī)至關(guān)重要，一秒鐘的延誤可能導(dǎo)致完全不同的結(jié)果。

游戲作為衡量AI性能的工具已有數(shù)十年歷史，但一些專家對(duì)此提出了質(zhì)疑。他們認(rèn)為，與現(xiàn)實(shí)世界相比，游戲環(huán)境相對(duì)抽象且簡(jiǎn)單，為AI訓(xùn)練提供了理論上無(wú)限的數(shù)據(jù)。這種局限性可能使得游戲基準(zhǔn)測(cè)試結(jié)果無(wú)法全面反映AI技術(shù)的真實(shí)水平。

近期，一些引人注目的游戲基準(zhǔn)測(cè)試結(jié)果引發(fā)了廣泛的討論，甚至引發(fā)了OpenAI研究科學(xué)家安德烈?卡帕西的“評(píng)估危機(jī)”言論。他在一篇帖子中表示，面對(duì)眾多AI指標(biāo)，他感到困惑，不知道應(yīng)該關(guān)注哪些。他總結(jié)道，目前難以準(zhǔn)確評(píng)估這些AI模型的真實(shí)能力。

盡管存在這些爭(zhēng)議和挑戰(zhàn)，但觀看AI玩《超級(jí)馬力歐兄弟》仍然是一種有趣的體驗(yàn)。這一研究不僅展示了AI技術(shù)的潛力，也引發(fā)了人們對(duì)AI性能評(píng)估和未來(lái)發(fā)展的深入思考。

更多>同類內(nèi)容

AMD銳龍7 9700X對(duì)決酷睿i7-14700K：RTX 508	小米模塊化鏡頭：手機(jī)秒變單反，影像新革命
小米模塊化光學(xué)系統(tǒng)：手機(jī)秒變單反，影像新	京東春曉計(jì)劃再升級(jí)，新商家專享活動(dòng)助力快

国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

AI挑戰(zhàn)《超級(jí)馬力歐兄弟》，Claude系列領(lǐng)先，推理模型為何落敗？