国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領先的互聯網科技媒體

Meta開源WebSSL模型,視覺學習能否真正擺脫語言束縛?

   時間:2025-04-25 12:08 來源:ITBEAR作者:趙云飛

近日,科技界迎來了一項新的突破,meta公司正式發布了WebSSL系列模型,這一系列模型基于純圖像數據進行訓練,旨在探索無語言監督的視覺自監督學習(SSL)的潛力。此舉標志著meta在視覺學習領域邁出了重要一步。

在當前的視覺學習領域,以OpenAI的CLIP為代表的對比語言-圖像模型已成為學習視覺表征的熱門選擇。這類模型在視覺問答(VQA)、文檔理解等多模態任務中展現出了卓越的性能。然而,語言依賴成為了一個限制因素,由于數據集獲取的復雜性和數據規模的限制,語言依賴面臨著諸多挑戰。meta公司正是針對這一痛點,推出了WebSSL系列模型。

WebSSL系列模型涵蓋了DINO和Vision Transformer(ViT)兩種架構,參數規模從3億到70億不等。這些模型在Hugging Face平臺上發布,為研究和應用提供了極大的便利。值得注意的是,這些模型僅使用了metaCLIP數據集(MC-2B)中的20億張圖像子集進行訓練,完全排除了語言監督的影響。

WebSSL模型采用了兩種視覺自監督學習范式:聯合嵌入學習(DINOv2)和掩碼建模(MAE)。在訓練過程中,統一使用了224×224分辨率的圖像,并凍結了視覺編碼器,以確保結果差異僅源于預訓練策略。這一設計使得WebSSL模型能夠在不受數據和模型規模限制的情況下,深入評估純視覺自監督學習的表現潛力。

模型在五個容量層級(ViT-1B至ViT-7B)上進行了訓練,并基于Cambrian-1基準測試進行了評估。該基準測試覆蓋了通用視覺理解、知識推理、OCR和圖表解讀等16個VQA任務。實驗結果顯示,隨著參數規模的增加,WebSSL模型在VQA任務上的表現接近對數線性提升,而CLIP在超過30億參數后性能趨于飽和。

在OCR和圖表任務中,WebSSL模型的表現尤為突出。經過數據篩選后,僅用1.3%的富文本圖像進行訓練,WebSSL模型就在OCRBench和ChartQA任務中實現了高達13.6%的性能提升。這一成果充分展示了WebSSL模型在特定任務中的卓越性能。

WebSSL模型在高分辨率(518px)微調方面也表現出色,進一步縮小了與SigLIP等高分辨率模型的差距。在文檔任務中,WebSSL模型更是展現出了卓越的性能。這一成果不僅驗證了WebSSL模型在視覺學習領域的潛力,也為未來的研究提供了重要的參考。

WebSSL模型在無語言監督下仍展現出與預訓練語言模型(如LLaMA-3)的良好對齊性。這表明大規模視覺模型能夠隱式學習與文本語義相關的特征,為視覺與語言的交叉研究提供了新的思路。

同時,WebSSL模型在傳統基準測試(如ImageNet-1k分類、ADE20K分割)上也保持了強勁的表現。部分場景下,WebSSL模型甚至優于metaCLIP和DINOv2等現有模型。這一成果進一步證明了WebSSL模型在視覺學習領域的領先地位。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群

主站蜘蛛池模板: 性做久久久久久蜜桃花 | 国产欧美一区二区久久 | 羞羞视频网 | 色婷婷激情五月 | 欧美日韩在线免费看 | 999国产精品999久久久久久 | 国产精品高清视亚洲一区二区 | 中文字幕不卡一区 二区三区 | 国产精品一区二区久久精品 | 五月婷综合网 | 一区二区三区福利 | 欧美色视频日本 | 美女下部隐私免费网站视频 | 久久国产精品亚洲一区二区 | 欧美日韩亚洲一区二区三区 | 亚洲人成影院在线高清 | 午夜欧美日韩 | 男女免费视频网站 | 亚洲视频在线观看网站 | 成人性色生活片 | 水蜜桃高清视频在线观看 | 丁香花五月婷婷开心 | 亚洲天堂热 | 亚洲国产成人资源在线桃色 | 欧美日韩国产一区二区三区伦 | 高清国产视频 | 国色天香社区在线观看免费直播 | 亚洲国产成人最新精品资源 | 亚洲图片偷拍区 | 亚洲综合色视频 | 香蕉久热 | 亚洲美女福利视频 | 欧美日韩一区二区视频图片 | 久久综合九色综合欧洲 | 欧美一区二区三区久久综 | 最近国语高清视频在线播放 | 日韩欧美成末人一区二区三区 | 在线播放人成午夜免费视频 | 在线观看一区二区三区四区 | 精品久久久久久久 | 欧美日韩亚洲电影网在线观看 |