在科技界風(fēng)起云涌的浪潮中,一項新興的研究成果猶如一股清流,迅速吸引了業(yè)界的廣泛關(guān)注。近日,DeepSeek研究團隊攜其最新力作——一種名為NSA的全新注意力機制,強勢回歸,與馬斯克發(fā)布的Grok 3形成了鮮明的對比,兩者熱度不相上下。
DeepSeek團隊通過一條簡短的推文,便引發(fā)了超過三十萬次的瀏覽熱潮,其影響力直逼OpenAI。推文中透露出的研究論文,更是如同一枚重磅炸彈,震撼了整個AI領(lǐng)域。
NSA,這一由DeepSeek團隊精心打造的注意力機制,以其獨特的動態(tài)分層稀疏策略、粗粒度token壓縮以及細粒度token選擇三大核心技術(shù),成功實現(xiàn)了在大幅降低預(yù)訓(xùn)練成本的同時,顯著提升推理速度。特別是在解碼階段,其性能提升高達11.6倍,令人嘆為觀止。
DeepSeek的創(chuàng)始人兼CEO梁文鋒,此次不僅親自參與了研究,更是親自提交了論文,這無疑為團隊的研究成果增添了更多的分量。他的身影出現(xiàn)在合著名單之中,也引發(fā)了網(wǎng)友們的紛紛調(diào)侃,甚至有人借此機會向奧特曼“示好”,戲稱DeepSeek又發(fā)表了一篇強大的新論文。
NSA的問世,無疑填補了稀疏注意力機制存在的缺陷。隨著AI技術(shù)的不斷發(fā)展,長上下文建模能力的重要性日益凸顯。然而,傳統(tǒng)的注意力機制在面對越來越長的序列時,其復(fù)雜性成為了制約運行速度的瓶頸。NSA通過巧妙地利用softmax注意力的固有稀疏性,選擇性地計算關(guān)鍵的query-key對,從而實現(xiàn)了計算開銷的大幅降低,同時保持了模型的卓越性能。
DeepSeek團隊在研究中發(fā)現(xiàn),現(xiàn)有的稀疏注意力技術(shù)在實際部署時往往未能達到預(yù)期效果,且大多集中在推理階段,缺乏對訓(xùn)練階段的有效支持。為此,他們提出了原生可訓(xùn)練的稀疏注意力架構(gòu)NSA,通過動態(tài)分層稀疏策略、粗粒度token壓縮和細粒度token選擇的有機結(jié)合,成功保留了全局上下文感知能力和局部精確性。
在評估NSA的技術(shù)性能時,研究團隊從通用基準性能、長文本基準性能和思維鏈推理性能三個維度進行了全面比較。結(jié)果顯示,NSA在各項評測中均表現(xiàn)出色,不僅預(yù)訓(xùn)練損失曲線穩(wěn)定平滑,且整體性能優(yōu)于全注意力模型和現(xiàn)有的稀疏注意力方法。
特別是在長上下文任務(wù)中,NSA展現(xiàn)出了極高的檢索精度和全局感知能力。這得益于其分層稀疏注意力設(shè)計,通過粗粒度token壓縮實現(xiàn)了高效的全局上下文掃描,同時通過細粒度選擇性標記保留了關(guān)鍵信息,從而實現(xiàn)了全局感知與局部精確度的完美平衡。
NSA還通過Triton開發(fā)了與硬件高度兼容的稀疏注意力內(nèi)核,進一步優(yōu)化了計算效率。DeepSeek團隊采用的查詢分組方法,通過組內(nèi)數(shù)據(jù)加載、共享KV加載和網(wǎng)格循環(huán)調(diào)度等特性,實現(xiàn)了接近最優(yōu)的計算強度平衡。
NSA的研究成果還驗證了清華大學(xué)姚班早期論文中的結(jié)論。在處理復(fù)雜數(shù)學(xué)問題時,NSA通過優(yōu)化問題理解和答案生成,成功減少了所需的tokens數(shù)量,從而得出了正確答案。這一顯著提升不僅展示了NSA在效率和準確性上的優(yōu)勢,也再次證明了AI技術(shù)在不斷推陳出新中取得的長足進步。