智譜AI近期震撼發(fā)布了其最新一代的視覺(jué)推理模型GLM-4.5V,并慷慨地選擇將此模型在GitHub、Hugging Face及魔搭社區(qū)上以MIT開(kāi)源協(xié)議進(jìn)行共享,此舉不僅展現(xiàn)了其對(duì)技術(shù)開(kāi)放的承諾,也為商業(yè)應(yīng)用提供了無(wú)限可能。
GLM-4.5V,作為一個(gè)擁有龐大參數(shù)的VLM(視覺(jué)-語(yǔ)言模型),其總參數(shù)高達(dá)1,060億,激活參數(shù)亦有120億。該模型是在智譜AI的旗艦文本模型GLM-4.5-Air的基礎(chǔ)上精心打造,并繼承了GLM-4.1V-Thinking的技術(shù)精髓。值得注意的是,GLM-4.5V在41項(xiàng)公開(kāi)的多模態(tài)基準(zhǔn)測(cè)試中,均取得了同級(jí)別開(kāi)源模型中的頂尖表現(xiàn)。
技術(shù)層面,GLM-4.5V由三大核心組件構(gòu)成:視覺(jué)編碼器、MLP適配器以及語(yǔ)言解碼器。通過(guò)引入創(chuàng)新的三維旋轉(zhuǎn)位置編碼(3D-RoPE),模型對(duì)三維空間關(guān)系的理解及推理能力得到了顯著提升。它能夠處理包含64K tokens的多模態(tài)長(zhǎng)上下文輸入,并利用三維卷積技術(shù),顯著優(yōu)化了視頻處理效率。這一設(shè)計(jì)讓GLM-4.5V不僅能處理靜態(tài)圖像,還能深入解析視頻內(nèi)容,對(duì)高分辨率及極端寬高比的圖像同樣展現(xiàn)出強(qiáng)大的處理能力和穩(wěn)定性。
為了全面增強(qiáng)GLM-4.5V的多模態(tài)能力,智譜AI在模型訓(xùn)練的每個(gè)階段都實(shí)施了精細(xì)的優(yōu)化策略。預(yù)訓(xùn)練階段,模型在龐大的圖文交錯(cuò)多模態(tài)語(yǔ)料及長(zhǎng)上下文內(nèi)容的滋養(yǎng)下,建立了對(duì)復(fù)雜圖文和視頻內(nèi)容的堅(jiān)實(shí)基礎(chǔ)。隨后,在監(jiān)督微調(diào)階段,通過(guò)引入“思維鏈”格式的顯式訓(xùn)練樣本,進(jìn)一步加深了模型的因果推理和多模態(tài)理解能力。最終,在強(qiáng)化學(xué)習(xí)階段,借助多領(lǐng)域獎(jiǎng)勵(lì)系統(tǒng),結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)與人類反饋強(qiáng)化學(xué)習(xí)(RLHF),模型在STEM問(wèn)題、多模態(tài)定位及智能體任務(wù)等多個(gè)領(lǐng)域均實(shí)現(xiàn)了顯著提升。
GLM-4.5V的實(shí)際表現(xiàn)同樣令人矚目。在圖像推理方面,它能夠進(jìn)行復(fù)雜的場(chǎng)景解析和多圖綜合判斷。例如,它能根據(jù)用戶的自然語(yǔ)言指令,準(zhǔn)確識(shí)別圖像中的目標(biāo)物體,并標(biāo)注出精確的位置坐標(biāo)。更令人驚嘆的是,它還能通過(guò)分析圖像中的微小線索,如植被類型、氣候痕跡及建筑風(fēng)格,推斷出照片的拍攝地點(diǎn)及大致地理位置,這一能力甚至超越了許多專業(yè)工具。
在復(fù)雜文檔理解領(lǐng)域,GLM-4.5V同樣展現(xiàn)出了卓越的能力。它能夠處理包含大量圖表的長(zhǎng)文本,同步理解文字與圖像信息,從而準(zhǔn)確地進(jìn)行內(nèi)容總結(jié)、翻譯及圖表信息提取,有效避免了傳統(tǒng)方法中可能出現(xiàn)的錯(cuò)誤傳遞問(wèn)題。針對(duì)前端開(kāi)發(fā)及用戶界面交互任務(wù),GLM-4.5V還提供了“前端復(fù)刻”功能,通過(guò)分析網(wǎng)頁(yè)截圖或交互視頻,能夠生成相應(yīng)的HTML、CSS及Javascript代碼,完美復(fù)刻網(wǎng)頁(yè)的布局、樣式及交互邏輯。
GLM-4.5V的GUI Agent能力同樣值得稱道,它能夠識(shí)別和處理電子屏幕畫面,執(zhí)行對(duì)話問(wèn)答、圖標(biāo)定位等任務(wù),為開(kāi)發(fā)桌面環(huán)境智能體應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。智譜AI還同步開(kāi)源了一款桌面助手應(yīng)用,該應(yīng)用能夠?qū)崟r(shí)捕獲屏幕信息,依托GLM-4.5V處理多種視覺(jué)推理任務(wù),涵蓋代碼輔助、視頻內(nèi)容分析、游戲解答及文檔解讀等多個(gè)領(lǐng)域。