摩爾線程在DeepSeek開源周活動中大放異彩,宣布全面支持多項開源項目。這家智能科技公司昨日晚間宣布,他們已成功實現(xiàn)對DeepSeek各個開源項目的廣泛兼容,涵蓋了FlashMLA、DeepEP、DeepGEMM、DualPipe以及Fire-Flyer文件系統(tǒng)(3FS)等多個關鍵組件。
據(jù)摩爾線程介紹,F(xiàn)lashMLA作為一款專為加速MLA(Multi-Head Latent Attention)機制計算而設計的開源推理內核,尤其適用于DeepSeek系列模型。摩爾線程依托其最新的MUSA Compute Capability 3.1計算架構,提供了原生FP8計算能力,并通過升級高性能線性代數(shù)模板庫MUTLASS,迅速推出了MT-FlashMLA開源倉庫,確保了對DeepSeek FlashMLA的快速兼容部署。
DeepEP則是專為MoE(混合專家)模型訓練和推理打造的開源EP(expert parallelism,專家并行)通信庫,特別適用于大規(guī)模模型訓練。摩爾線程基于MUSA Compute Capability 3.1全功能GPU,第一時間適配了DeepEP,支持高效優(yōu)化的All-to-All通信、MTLink + GPU節(jié)點內通信以及原生FP8數(shù)據(jù)分發(fā)等多項特性,顯著提升了訓練效率。
DeepGEMM則是支持密集矩陣與MoE矩陣乘法的FP8 GEMM庫,為V3/R1的訓練與推理提供了強大支持。摩爾線程基于MUTLASS在全新GPU架構上進行了優(yōu)化,實現(xiàn)了FP8矩陣乘法,成功支持了DeepGEMM的相應功能。
DualPipe是DeepSeek-V3提出的雙向流水線并行算法,通過計算與通信的完全重疊,顯著減少了設備空閑等待時間,大幅提升了資源利用率與訓練效率。摩爾線程依托其深度學習框架Torch-MUSA和MUSA軟件棧的全方位兼容性,實現(xiàn)了對DualPipe算法的高效支持,并成功接入了摩爾線程的MT-Megatron框架和即將開源的MT-TransformerEngine框架。
Fire-Flyer文件系統(tǒng)(3FS)作為一種并行文件系統(tǒng),充分利用了現(xiàn)代SSD和RDMA網(wǎng)絡的帶寬,成為V3和R1訓練與推理過程中的關鍵支撐。摩爾線程在極短時間內完成了3FS的搭建,并開發(fā)了存儲插件,成功實現(xiàn)了與夸娥智算集群的無縫集成,為AI訓練、推理和科學計算等場景提供了全棧存儲加速方案。