在科技界的一次重要動向中,DeepSeek公司在近期宣布了其“開源周”活動的深入進(jìn)展,于2月27日揭曉了第四日的開源成果——專注于優(yōu)化并行策略的一系列技術(shù)創(chuàng)新。
此次公開的技術(shù)亮點(diǎn)涵蓋了DualPipe,這是一種專為V3/R1訓(xùn)練設(shè)計的雙向流水線并行算法,旨在通過計算與通信的重疊,顯著提升效率。同時,EPLB作為V3/R1的專家并行負(fù)載均衡器,為資源分配提供了更為智能的解決方案。DeepSeek還深入分析了V3/R1中的計算通信重疊現(xiàn)象,為進(jìn)一步優(yōu)化提供了理論基礎(chǔ)。
回顧整個“開源周”,DeepSeek的每一步都備受矚目。活動自2月24日啟動以來,已陸續(xù)向公眾開放了多個核心代碼庫。首日,F(xiàn)lash MLA作為首個開源項(xiàng)目,為機(jī)器學(xué)習(xí)領(lǐng)域注入了新的活力。緊接著,在2月25日,DeepSeek推出了DeepEP,這是一個專為MoE(混合專家)模型訓(xùn)練和推理設(shè)計的EP通信庫,進(jìn)一步推動了模型處理能力的邊界。
而到了2月26日,DeepSeek再次發(fā)力,開源了DeepGEMM庫。這一庫支持FP8(8位浮點(diǎn)數(shù))通用矩陣乘法運(yùn)算,不僅適用于密集型計算,還完美契合混合專家(MoE)架構(gòu),為高性能計算領(lǐng)域帶來了新的可能。
DeepSeek的這一系列開源舉措,不僅展示了其在人工智能領(lǐng)域的深厚積累,也體現(xiàn)了其開放共享、推動行業(yè)進(jìn)步的企業(yè)精神。隨著“開源周”的持續(xù)深入,更多前沿技術(shù)有望被更多開發(fā)者所掌握,共同推動技術(shù)的創(chuàng)新與發(fā)展。