在科技界的風(fēng)頭浪尖上,DeepSeek研究團隊攜其最新研究成果NSA(新型稀疏注意力架構(gòu))強勢回歸,緊隨馬斯克發(fā)布Grok 3的熱潮之后,迅速吸引了業(yè)界的廣泛關(guān)注。該團隊通過推文宣布這一突破性進(jìn)展,短短數(shù)小時內(nèi)便收獲了超過三十萬的瀏覽量,其熱度直逼OpenAI。
DeepSeek此次發(fā)布的論文詳細(xì)闡述了NSA的設(shè)計理念與技術(shù)細(xì)節(jié),這一創(chuàng)新機制旨在解決長上下文訓(xùn)練與推理中的效率瓶頸。NSA的核心策略包括動態(tài)分層稀疏策略、粗粒度的token壓縮以及細(xì)粒度的token選擇,這三項技術(shù)的結(jié)合不僅顯著降低了預(yù)訓(xùn)練成本,更在推理速度上實現(xiàn)了質(zhì)的飛躍,尤其是在解碼階段,性能提升高達(dá)11.6倍。
論文的發(fā)表也標(biāo)志著DeepSeek創(chuàng)始人兼CEO梁文鋒的親自參與,他不僅作為共同作者,還親自提交了這篇重量級論文,這一舉動無疑為團隊的研究增添了更多分量。
隨著AI技術(shù)的不斷進(jìn)步,長上下文建模能力的重要性日益凸顯,特別是在深度推理、代碼生成及多輪對話系統(tǒng)等應(yīng)用場景中。DeepSeek的R1模型正是憑借其在這一領(lǐng)域的突破,能夠高效處理整個代碼庫、長篇文檔,并保持對話的連貫性與復(fù)雜推理能力。然而,傳統(tǒng)的注意力機制在處理長序列時,因其復(fù)雜性成為了性能提升的瓶頸,尤其是在解碼長上下文時,softmax注意力計算幾乎占據(jù)了總延遲的70-80%。
為克服這一挑戰(zhàn),DeepSeek團隊提出了NSA架構(gòu),通過動態(tài)分層稀疏策略與token壓縮、選擇技術(shù),實現(xiàn)了高效的長上下文建模。NSA不僅保留了全局上下文感知能力,還確保了局部精確性,并通過針對現(xiàn)代硬件的優(yōu)化,實現(xiàn)了計算速度的大幅提升,支持端到端訓(xùn)練,有效減少了預(yù)訓(xùn)練計算量。
在技術(shù)評估環(huán)節(jié),DeepSeek團隊從通用基準(zhǔn)性能、長文本基準(zhǔn)性能及思維鏈推理性能三個維度,將NSA與全注意力基線及現(xiàn)有稀疏注意力方法進(jìn)行了全面對比。結(jié)果顯示,NSA在各項測試中均表現(xiàn)出色,不僅預(yù)訓(xùn)練損失曲線穩(wěn)定且優(yōu)于全注意力模型,還在9項評測指標(biāo)中有7項達(dá)到最佳表現(xiàn)。特別是在長上下文任務(wù)中,NSA展現(xiàn)出了極高的檢索精度與全局感知能力。
NSA的研究還驗證了清華大學(xué)姚班早期論文中關(guān)于Transformer架構(gòu)在處理復(fù)雜數(shù)學(xué)問題時的局限性。DeepSeek通過優(yōu)化問題理解和答案生成,成功減少了所需tokens數(shù)量,從而得出了正確答案,而基線方法則因消耗過多tokens而失敗。這一實踐再次證明了NSA在效率和準(zhǔn)確性上的顯著優(yōu)勢。