在人工智能領域,模型發展的兩極分化趨勢愈發顯著。一方面,企業級應用更傾向于采用小參數模型,因其在實際應用中展現出高效與便捷;另一方面,通用大模型的參數規模持續攀升,已邁入萬億參數的新紀元。
MoE(Mixture of Experts)高效模型架構的興起,成為推動大模型參數規模不斷增長的驅動力。例如,采用MoE混合專家架構的KIMI K2開源模型,其參數量高達1.2萬億,但在推理過程中,每個Token僅需激活32B參數,實現了高效與性能的平衡。
然而,隨著模型參數的激增,算力系統正面臨前所未有的挑戰。萬億參數模型對算力的需求極為龐大,傳統計算架構難以滿足。以GPT-3為例,其1750億參數的訓練量已相當驚人,需要在2.5萬張A100 GPU上運行90-100天。而萬億參數模型的算力需求更是數十倍于此,對算力系統架構提出了全新要求。
算力需求的激增不僅體現在訓練階段,推理階段同樣面臨巨大挑戰。大模型推理屬于敏感型計算,對分布式計算通信延時要求極高。MoE架構模型在分布式訓練過程中涉及大量跨設備通信,通信時間占比高達40%,進一步加劇了算力系統的壓力。
為了應對這些挑戰,企業開始探索構建大規模Scale Up系統。傳統Scale Out集群通過增加節點數量來擴展算力,但節點間通信瓶頸在萬億參數模型訓練中被無限放大。相比之下,Scale Up系統通過超節點技術,將數百顆AI芯片封裝為統一計算實體,實現跨節點通信性能接近節點內水平,有效解決了算力瓶頸問題。
浪潮信息副總經理趙帥指出,構建具有更大顯存空間、更大高速互連域、更高算力的超節點系統,是應對萬億模型算力挑戰的關鍵。浪潮信息近期發布的元腦SD200超節點AI服務器,就是這一理念的典范。該產品基于創新的多主機低延遲內存語義通信架構,聚合64路本土GPU芯片,可單機運行1.2萬億參數Kimi K2模型,并支持多種模型同時運行和多Agent協同按需調用。
元腦SD200在硬件架構上采用了多主機3D Mesh系統架構,通過Open Fabric Switch實現64路GPU高速互連,擁有更大的統一地址顯存空間。在軟件層面,元腦SD200針對3D Mesh系統架構開發了一套PD分離框架,配合多層級通信機制,降低了通信時延,并保持了對多元算力的兼容性。
軟硬協同成為解決萬億參數大模型算力瓶頸的核心路徑。硬件能力的釋放需要軟件層的深度適配。例如,字節跳動COMET技術通過動態KV緩存重組,顯著降低了MoE模型的通信延遲,提升了硬件利用率。這一案例充分說明了軟件優化在提升算力利用率方面的重要作用。
在構建大規模Scale Up系統的同時,企業還需關注數據中心功耗與碳中和進程的平衡。超節點系統的功耗密度已達兆瓦級,軟硬協同成為破局關鍵。若軟件未適配硬件的動態功耗調節,可能導致芯片長期處于高功耗狀態,引發過熱降頻等問題。
萬億參數大模型的爆發式增長,正推動算力系統進入從“量變”到“質變”的關鍵轉折期。面對龐大的參數規模、激增的顯存需求、復雜的通信開銷以及MoE架構帶來的負載均衡與訓練穩定性挑戰,企業需要不斷創新硬件架構與軟件系統,實現軟硬協同,才能將超節點的算力優勢轉化為大模型落地的實際效能。