国产伦子系列麻豆精品,久久黄色视屏,久久精品久久久

Hugging Face新推SmolVLM AI模型，20億參數助力設備端高效推理

時間：2024-11-27 14:18 來源：ITBEAR作者：蘇婉清

Hugging Face平臺近期在科技界掀起波瀾，發布了一款名為SmolVLM的AI視覺語言模型（VLM），這款模型以其精簡的20億參數設計，專為設備端推理打造，憑借超低的內存占用，在眾多同類模型中獨樹一幟。

SmolVLM AI模型的核心優勢在于其小巧的體積、驚人的處理速度以及高效的內存利用。更重要的是，該模型完全開源，所有相關的模型檢查點、VLM數據集、訓練配方和工具，均在Apache 2.0許可證下向公眾開放。

SmolVLM提供了三個版本以滿足不同需求：SmolVLM-Base，適用于下游任務的微調；SmolVLM-Synthetic，基于合成數據進行微調；以及SmolVLM-Instruct，這是一個指令微調版本，可直接應用于交互式應用中。

該模型在架構設計上的巧妙之處，是其借鑒了Idefics3的理念，并采用了SmolLM2 1.7B作為語言主干。通過創新的像素混洗策略，SmolVLM將視覺信息的壓縮率提升了9倍，從而實現了更高效的視覺信息處理。

在訓練數據集方面，SmolVLM涵蓋了Cauldron和Docmatix，并對SmolLM2進行了上下文擴展，使其能夠處理更長的文本序列和多張圖像。這一優化不僅提升了模型的性能，還有效降低了內存占用，解決了大型模型在普通設備上運行緩慢甚至無法運行的問題。

在內存使用方面，SmolVLM展現出了卓越的能力。它將384x384像素的圖像塊編碼為81個tokens，這意味著在相同的測試圖片下，SmolVLM僅需使用1200個tokens，而相比之下，Qwen2-VL則需要1.6萬個tokens。這一顯著的內存節省，使得SmolVLM在設備端推理上更具優勢。

在性能表現上，SmolVLM同樣令人矚目。它在多個基準測試中，如MMMU、MathVista、MMStar、DocVQA和TextVQA等，均展現出了出色的處理能力。與Qwen2-VL相比，SmolVLM在預填充吞吐量上快了3.3到4.5倍，而在生成吞吐量上更是快了7.5到16倍。

這款創新模型的發布，無疑為AI視覺語言模型領域帶來了新的活力和可能性。隨著SmolVLM的廣泛應用和深入發展，我們有理由期待它在未來能夠發揮更大的作用，為人工智能技術的發展貢獻更多的力量。

更多>同類內容

新能源汽車排名上汽大通大家5長續航與大空	年輕科技旗艦愛瑪A7Plus攜“六大神技”盛
iPhone SE4大升級：后置4800萬像素，硬件性	小米平板7S Pro曝光：14英寸3.2K OLED大屏

国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

Hugging Face新推SmolVLM AI模型，20億參數助力設備端高效推理