国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

GPT-4.1與智譜Z.ai同臺(tái)競技,AI模型性能大戰(zhàn)一觸即發(fā)

   時(shí)間:2025-05-06 20:08 來源:ITBEAR作者:鐘景軒

在科技界的一次重大飛躍中,OpenAI宣布推出三款全新模型:GPT-4.1、GPT-4.1 mini及GPT-4.1 nano。這些最新力作不僅在性能上遠(yuǎn)超前輩GPT-4o系列,更在編碼能力和指令遵循方面實(shí)現(xiàn)了顯著提升。尤為引人注目的是,它們配備了前所未有的大上下文窗口,能夠處理多達(dá)100萬個(gè)上下文tokens,這一數(shù)字相當(dāng)于整個(gè)React代碼庫的8倍以上。

在SWE-bench Verified這一衡量編碼能力的權(quán)威測試中,GPT-4.1以54.6%的得分傲視群雄,相較于GPT-4o的33.2%和GPT-4.5的表現(xiàn),分別提升了21.4%和26.6%。這一成績無疑確立了GPT-4.1在編碼模型領(lǐng)域的領(lǐng)先地位。

在指令遵循方面,GPT-4.1同樣表現(xiàn)出色,以38.3%的得分超越了GPT-4o的27.8%,彰顯了其在理解和執(zhí)行復(fù)雜指令上的卓越能力。而在Video-MME多模態(tài)長上下文理解基準(zhǔn)測試中,GPT-4.1在無字幕長篇類別中取得了72.0%的高分,較GPT-4o提升了6.7%,進(jìn)一步證明了其在處理復(fù)雜信息方面的強(qiáng)大實(shí)力。

為了優(yōu)化用戶體驗(yàn),GPT-4.1系列模型在確保高性能的同時(shí),還實(shí)現(xiàn)了成本的有效控制。這些模型在延遲曲線的各個(gè)節(jié)點(diǎn)上都實(shí)現(xiàn)了性能提升,為用戶提供了更為流暢和高效的服務(wù)。與此同時(shí),OpenAI還透露,GPT-4.1在代碼任務(wù)、指令遵循以及長上下文理解等多個(gè)領(lǐng)域均超越了GPT-4o,展示了其全面的技術(shù)優(yōu)勢(shì)。

與此同時(shí),國內(nèi)AI領(lǐng)域也傳來了振奮人心的消息。智譜AI宣布開源其32B/9B系列GLM模型,這些模型在代碼生成、指令遵循等方面與GPT-4.1形成了直接競爭。用戶現(xiàn)已可通過全新平臺(tái)Z.ai免費(fèi)體驗(yàn)這批涵蓋基座、推理、沉思模型的AI產(chǎn)品,同時(shí),它們也已在智譜MaaS平臺(tái)上同步上線。

在代碼生成方面,GPT-4.1展現(xiàn)出了卓越的能力。無論是解決復(fù)雜的編碼任務(wù)、進(jìn)行前端編碼,還是在減少無關(guān)編輯、遵循差異格式等方面,GPT-4.1的表現(xiàn)均優(yōu)于GPT-4o。在SWE-bench Verified測試中,GPT-4.1完成了54.6%的任務(wù),而GPT-4o的完成率僅為33.2%。GPT-4.1在跨多種格式的代碼差異分析方面也更加準(zhǔn)確,為API開發(fā)者提供了更為高效和準(zhǔn)確的代碼編輯工具。

指令遵循方面,GPT-4.1同樣表現(xiàn)出色。在OpenAI開發(fā)的內(nèi)部教學(xué)跟蹤評(píng)估系統(tǒng)中,GPT-4.1在困難提示方面的表現(xiàn)尤為突出。它能夠更好地從過往對(duì)話中識(shí)別信息,實(shí)現(xiàn)更自然的對(duì)話。在MultiChallenge基準(zhǔn)測試中,GPT-4.1的表現(xiàn)較GPT-4o提升了10.5%。而在IFeval測試中,GPT-4.1的得分也高達(dá)87.4%,超越了GPT-4o的81.0%。智譜的GLM-Z1-32B-0414在IFeval上也取得了84.5%的優(yōu)異成績。

長上下文理解是GPT-4.1的另一大亮點(diǎn)。它能夠處理多達(dá)100萬個(gè)上下文tokens,這一能力在處理大型代碼庫或大量長文檔時(shí)尤為關(guān)鍵。GPT-4.1能夠準(zhǔn)確地從長上下文中提取相關(guān)信息,并忽略干擾項(xiàng)。在OpenAI-MRCR評(píng)估平臺(tái)上,GPT-4.1展現(xiàn)出了卓越的信息理解能力。同時(shí),在Graphwalks基準(zhǔn)測試中,GPT-4.1也取得了61.7%的準(zhǔn)確率,輕松擊敗了GPT-4o。

智譜AI在小模型性能上也取得了突破。其GLM-Z1-9B-0414模型雖然參數(shù)量較少,但在數(shù)學(xué)推理及通用任務(wù)上仍表現(xiàn)出色。在AIME基準(zhǔn)測試中,它以76.4%的高分擊敗了DeepSeek-R1-Distill-Qwen-7B。

在圖像理解方面,GPT-4.1系列同樣不容小覷。尤其是GPT-4.1 mini,在圖像基準(zhǔn)測試中經(jīng)常擊敗GPT-4o。在Video-MME測試中,GPT-4.1以72.0%的得分超越了GPT-4o的65.3%,展示了其在視頻理解方面的強(qiáng)大實(shí)力。

在定價(jià)方面,GPT-4.1的成本較GPT-4o降低了26%,而GPT-4.1 nano更是成為了OpenAI迄今為止最便宜且速度最快的模型。除了標(biāo)準(zhǔn)的per-token成本外,OpenAI還提供了無需額外付費(fèi)的長上下文請(qǐng)求服務(wù)。相比之下,智譜Z.ai的定價(jià)整體低于GPT-4.1。其推出的GLM-Z1系列推理模型包括極速版、高性價(jià)比版和免費(fèi)版等多個(gè)版本,旨在滿足不同用戶的需求。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群

主站蜘蛛池模板: 国产在线乱码在线视频 | www.麻豆.com | 亚洲欧美综合一区 | 亚洲天堂五月天 | 亚洲精品成人中文网 | 亚洲精品另类有吗中文字幕 | 午夜丁香婷婷 | 精品久久久久久中文字幕欧美 | 丁香婷| 激情婷婷 | 羞羞视频在线观看免费 | 欧日韩视频 | 丁香在线 | 亚洲免费网址 | 亚洲视频中文字幕在线观看 | 国产热视频 | 国内精品久久久久久久久蜜桃 | 9色在线视频 | 一区二区三区网站 | 2019天堂网 | cjod-261波多野结衣 | 欧美日在线观看 | 日韩免费在线观看视频 | 久久精品无码一区二区日韩av | 亚洲国产成人精品女人久久久 | 免费国产视频 | 丁香五月欧美成人 | 永久国产 | 亚洲国产成人久久一区久久 | 在线观看免费视频国产 | 亚洲自拍偷拍区 | 艳鬼狂情 电影 | 亚洲光棍天堂 | 五月婷婷激情四射 | 羞羞视频免费网站在线 | 中文字幕久久综合 | 欧美一区视频 | 国产亚洲女人久久久久久 | 亚洲最大福利 | 中文精品久久久久国产网址 | 五月婷婷激情在线 |