隨著大模型技術(shù)的演進(jìn)逐漸放緩,與其緊密相關(guān)的新技術(shù)棧正步入產(chǎn)品化的關(guān)鍵階段,而非僅僅停留在小范圍試驗(yàn)層面。行業(yè)內(nèi)外普遍關(guān)注大模型的計(jì)算需求,然而存儲(chǔ)需求卻常常被忽視。目前,傳統(tǒng)存儲(chǔ)陣列在GPU集群面前已暴露出性能瓶頸和擴(kuò)展性不足的問(wèn)題,業(yè)界普遍認(rèn)為,存儲(chǔ)行業(yè)正面臨的不是漸進(jìn)式的技術(shù)升級(jí),而是需要架構(gòu)級(jí)的全面重構(gòu)。
大模型訓(xùn)練對(duì)存儲(chǔ)系統(tǒng)的帶寬與并發(fā)能力提出了極限要求,而在推理階段,多模態(tài)數(shù)據(jù)則面臨著孤島化的困境。企業(yè)對(duì)于核心數(shù)據(jù)安全的擔(dān)憂(yōu)日益加劇,加之舊有架構(gòu)在GPU+全閃存時(shí)代下的“硬件不適配癥”,傳統(tǒng)存儲(chǔ)的短板在AI技術(shù)的放大鏡下愈發(fā)明顯。
在海外市場(chǎng)上,AI存儲(chǔ)領(lǐng)域已涌現(xiàn)出獨(dú)角獸企業(yè),其“統(tǒng)一存儲(chǔ)層+AI原生接口”的模式獲得了市場(chǎng)的廣泛認(rèn)可。在此背景下,中國(guó)存儲(chǔ)廠(chǎng)商ExponTech也推出了自主研發(fā)的WADP平臺(tái),旨在通過(guò)一套架構(gòu)統(tǒng)一管理生產(chǎn)與AI數(shù)據(jù)流。
傳統(tǒng)存儲(chǔ)陣列為何會(huì)成為瓶頸?ExponTech創(chuàng)始人曹羽中解釋道,在傳統(tǒng)信息化時(shí)代,盡管出現(xiàn)了諸多存儲(chǔ)新技術(shù),但這些技術(shù)并未從根本上改變市場(chǎng)格局,傳統(tǒng)存儲(chǔ)陣列仍是主流方案,企業(yè)投資也依然集中于此。然而,隨著AI時(shí)代的到來(lái),存儲(chǔ)領(lǐng)域?qū)⒂瓉?lái)重大變革,類(lèi)似于計(jì)算領(lǐng)域從CPU中心向GPU中心的轉(zhuǎn)型。
具體而言,存儲(chǔ)需求將呈現(xiàn)四大核心變化:首先,大模型訓(xùn)練驅(qū)動(dòng)的超高性能需求,要求存儲(chǔ)系統(tǒng)提供超高帶寬與高并發(fā)能力,以支撐多卡并行訓(xùn)練,確保GPU卡利用率最大化。其次,推理時(shí)代的效率優(yōu)化成為關(guān)鍵,企業(yè)需要優(yōu)化推理效率,解決計(jì)算資源與存儲(chǔ)資源的協(xié)同問(wèn)題。這包括多模態(tài)數(shù)據(jù)的統(tǒng)一管理,避免數(shù)據(jù)孤島,以及記憶持久化與以存代算,減少重復(fù)運(yùn)算,增強(qiáng)AI模型的記憶能力。
第三,數(shù)據(jù)可控與安全成為企業(yè)關(guān)注的焦點(diǎn)。企業(yè)不愿將核心數(shù)據(jù)交給公共大模型,且受限于數(shù)據(jù)隱私要求,這些數(shù)據(jù)難以直接遷移至公有云。因此,構(gòu)建數(shù)據(jù)中心級(jí)統(tǒng)一數(shù)據(jù)層并實(shí)施細(xì)粒度權(quán)限管控成為必然選擇。最后,傳統(tǒng)架構(gòu)的局限性日益凸顯,其孤島式設(shè)計(jì)、存儲(chǔ)軟件架構(gòu)老化以及對(duì)新一代硬件適配不足等問(wèn)題,使得傳統(tǒng)存儲(chǔ)陣列難以有效支持GPU+全閃存+RDMA網(wǎng)絡(luò)等新硬件環(huán)境。
曹羽中指出,理想的AI時(shí)代存儲(chǔ)系統(tǒng)應(yīng)具備以下特點(diǎn):統(tǒng)一存儲(chǔ)引擎,基于通用硬件,實(shí)現(xiàn)超高性能與無(wú)限擴(kuò)展性,承載全量企業(yè)數(shù)據(jù);雙軌制接口體系,既兼容傳統(tǒng)接口,又創(chuàng)新AI原生接口;支持過(guò)程數(shù)據(jù)與上下文數(shù)據(jù)的存儲(chǔ)和管理,優(yōu)化決策路徑。AI統(tǒng)一數(shù)據(jù)平臺(tái)的趨勢(shì)從美國(guó)到中國(guó)正在興起。
近日,ExponTech正式發(fā)布了新一代統(tǒng)一AI數(shù)據(jù)平臺(tái)WADP(WiDE AI Data Platform),旨在解決企業(yè)AI應(yīng)用的核心痛點(diǎn)——高效融合存儲(chǔ)與管理海量多源數(shù)據(jù),實(shí)現(xiàn)AI算力與數(shù)據(jù)存力的無(wú)縫協(xié)同。WADP基于全自研的分布式存儲(chǔ)引擎與分布式KV元數(shù)據(jù)引擎構(gòu)建,運(yùn)行于標(biāo)準(zhǔn)服務(wù)器硬件,廣泛適配各類(lèi)通用硬件。
WADP首次將企業(yè)核心生產(chǎn)系統(tǒng)(如關(guān)鍵數(shù)據(jù)庫(kù))與AI數(shù)據(jù)管道(訓(xùn)練、推理、向量檢索等)統(tǒng)一承載于同一平臺(tái),實(shí)現(xiàn)對(duì)傳統(tǒng)存儲(chǔ)陣列、文件系統(tǒng)及大數(shù)據(jù)存儲(chǔ)的現(xiàn)代化融合替代,為企業(yè)構(gòu)建面向未來(lái)的AI數(shù)據(jù)基礎(chǔ)設(shè)施。這一趨勢(shì)已在美國(guó)市場(chǎng)得到廣泛驗(yàn)證,而ExponTech的技術(shù)路徑和產(chǎn)品實(shí)現(xiàn)與國(guó)際市場(chǎng)AI基礎(chǔ)設(shè)施的技術(shù)趨勢(shì)不謀而合。
據(jù)悉,ExponTech堅(jiān)持核心代碼全棧自研,不依賴(lài)國(guó)外開(kāi)源技術(shù)。其新一代分布式存儲(chǔ)引擎與元數(shù)據(jù)引擎成功突破多項(xiàng)技術(shù)高峰,WADP存儲(chǔ)軟件在面向企業(yè)核心業(yè)務(wù)場(chǎng)景的SPC-1評(píng)測(cè)中打破世界紀(jì)錄,又在面向AI場(chǎng)景的MLPerf Storage v2.0評(píng)測(cè)中取得優(yōu)異成果,充分驗(yàn)證了使用同一套分布式存儲(chǔ)軟件構(gòu)建Universal Storage的技術(shù)可行性,為應(yīng)對(duì)AI時(shí)代海量數(shù)據(jù)挑戰(zhàn)奠定了堅(jiān)實(shí)基礎(chǔ)。