五月亭亭六月丁香,久久免费精品视频,国产最新精品精品视频

智譜AI開(kāi)源GLM-4.5V視覺(jué)推理模型，41項(xiàng)多模態(tài)基準(zhǔn)測(cè)試獲SOTA性能

時(shí)間：2025-08-12 05:04 來(lái)源：ITBEAR作者：鐘景軒

智譜AI近期震撼發(fā)布了其最新一代的視覺(jué)推理模型GLM-4.5V，并慷慨地選擇將此模型在GitHub、Hugging Face及魔搭社區(qū)上以MIT開(kāi)源協(xié)議進(jìn)行共享，此舉不僅展現(xiàn)了其對(duì)技術(shù)開(kāi)放的承諾，也為商業(yè)應(yīng)用提供了無(wú)限可能。

GLM-4.5V，作為一個(gè)擁有龐大參數(shù)的VLM（視覺(jué)-語(yǔ)言模型），其總參數(shù)高達(dá)1,060億，激活參數(shù)亦有120億。該模型是在智譜AI的旗艦文本模型GLM-4.5-Air的基礎(chǔ)上精心打造，并繼承了GLM-4.1V-Thinking的技術(shù)精髓。值得注意的是，GLM-4.5V在41項(xiàng)公開(kāi)的多模態(tài)基準(zhǔn)測(cè)試中，均取得了同級(jí)別開(kāi)源模型中的頂尖表現(xiàn)。

技術(shù)層面，GLM-4.5V由三大核心組件構(gòu)成：視覺(jué)編碼器、MLP適配器以及語(yǔ)言解碼器。通過(guò)引入創(chuàng)新的三維旋轉(zhuǎn)位置編碼（3D-RoPE），模型對(duì)三維空間關(guān)系的理解及推理能力得到了顯著提升。它能夠處理包含64K tokens的多模態(tài)長(zhǎng)上下文輸入，并利用三維卷積技術(shù)，顯著優(yōu)化了視頻處理效率。這一設(shè)計(jì)讓GLM-4.5V不僅能處理靜態(tài)圖像，還能深入解析視頻內(nèi)容，對(duì)高分辨率及極端寬高比的圖像同樣展現(xiàn)出強(qiáng)大的處理能力和穩(wěn)定性。

為了全面增強(qiáng)GLM-4.5V的多模態(tài)能力，智譜AI在模型訓(xùn)練的每個(gè)階段都實(shí)施了精細(xì)的優(yōu)化策略。預(yù)訓(xùn)練階段，模型在龐大的圖文交錯(cuò)多模態(tài)語(yǔ)料及長(zhǎng)上下文內(nèi)容的滋養(yǎng)下，建立了對(duì)復(fù)雜圖文和視頻內(nèi)容的堅(jiān)實(shí)基礎(chǔ)。隨后，在監(jiān)督微調(diào)階段，通過(guò)引入“思維鏈”格式的顯式訓(xùn)練樣本，進(jìn)一步加深了模型的因果推理和多模態(tài)理解能力。最終，在強(qiáng)化學(xué)習(xí)階段，借助多領(lǐng)域獎(jiǎng)勵(lì)系統(tǒng)，結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RLVR）與人類反饋強(qiáng)化學(xué)習(xí)（RLHF），模型在STEM問(wèn)題、多模態(tài)定位及智能體任務(wù)等多個(gè)領(lǐng)域均實(shí)現(xiàn)了顯著提升。

GLM-4.5V的實(shí)際表現(xiàn)同樣令人矚目。在圖像推理方面，它能夠進(jìn)行復(fù)雜的場(chǎng)景解析和多圖綜合判斷。例如，它能根據(jù)用戶的自然語(yǔ)言指令，準(zhǔn)確識(shí)別圖像中的目標(biāo)物體，并標(biāo)注出精確的位置坐標(biāo)。更令人驚嘆的是，它還能通過(guò)分析圖像中的微小線索，如植被類型、氣候痕跡及建筑風(fēng)格，推斷出照片的拍攝地點(diǎn)及大致地理位置，這一能力甚至超越了許多專業(yè)工具。

在復(fù)雜文檔理解領(lǐng)域，GLM-4.5V同樣展現(xiàn)出了卓越的能力。它能夠處理包含大量圖表的長(zhǎng)文本，同步理解文字與圖像信息，從而準(zhǔn)確地進(jìn)行內(nèi)容總結(jié)、翻譯及圖表信息提取，有效避免了傳統(tǒng)方法中可能出現(xiàn)的錯(cuò)誤傳遞問(wèn)題。針對(duì)前端開(kāi)發(fā)及用戶界面交互任務(wù)，GLM-4.5V還提供了“前端復(fù)刻”功能，通過(guò)分析網(wǎng)頁(yè)截圖或交互視頻，能夠生成相應(yīng)的HTML、CSS及Javascript代碼，完美復(fù)刻網(wǎng)頁(yè)的布局、樣式及交互邏輯。

GLM-4.5V的GUI Agent能力同樣值得稱道，它能夠識(shí)別和處理電子屏幕畫面，執(zhí)行對(duì)話問(wèn)答、圖標(biāo)定位等任務(wù)，為開(kāi)發(fā)桌面環(huán)境智能體應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。智譜AI還同步開(kāi)源了一款桌面助手應(yīng)用，該應(yīng)用能夠?qū)崟r(shí)捕獲屏幕信息，依托GLM-4.5V處理多種視覺(jué)推理任務(wù)，涵蓋代碼輔助、視頻內(nèi)容分析、游戲解答及文檔解讀等多個(gè)領(lǐng)域。

更多>同類內(nèi)容

華為Mate XTs定檔9月10日，直面iPhone 17挑	8月新機(jī)盛宴：vivo頭顯、Redmi耐用機(jī)、華為
比亞迪跨界造平板，未來(lái)或涉足手機(jī)，布局全	榮耀Magic V Flip2官宣：鉆石星空設(shè)計(jì)，或

国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

智譜AI開(kāi)源GLM-4.5V視覺(jué)推理模型，41項(xiàng)多模態(tài)基準(zhǔn)測(cè)試獲SOTA性能