近日,“深度求索”官方公眾號揭曉了一項重要進展,其DeepSeek-V3模型已正式上線并同步開放源代碼。用戶只需訪問chat.deepseek.com官網,便能與這一最新版本的模型進行互動。
據官方介紹,DeepSeek-V3是一個具備6710億參數的專家混合(MoE)模型,通過多個專家網絡將問題空間精細劃分為多個同質區域,有效提升了模型的處理能力。該模型在預訓練階段處理了高達14.8萬億的token,并激活了370億參數。
DeepSeek-V3在多項評測中的表現尤為亮眼,不僅超越了Qwen2.5-72B和Llama-3.1-405B等開源模型的性能,還與世界頂尖的閉源模型GPT-4o和Claude-3.5-Sonnet等相媲美。
在知識、長文本處理、代碼生成、數學計算以及中文理解等多個方面,DeepSeek-V3均取得了顯著進步。尤其在算法代碼和數學問題的處理上,其表現尤為突出。DeepSeek-V3的生成速度也大幅提升至60 TPS,相較于V2.5版本,速度提高了3倍。
為了讓更多開發者能夠輕松適配和應用DeepSeek-V3,官方不僅開源了原生FP8權重,還提供了BF16轉換腳本。目前,SGLang、LMDeploy、TensorRT-LLM和MindIE等多個平臺已支持V3模型的推理。
與此同時,DeepSeek還對API服務價格進行了調整。新的定價策略為:每百萬輸入tokens的價格為0.5元(緩存命中)或2元(緩存未命中),每百萬輸出tokens的價格為8元。為了讓更多用戶能夠體驗到新模型的強大功能,DeepSeek特別設置了長達45天的優惠價格體驗期。
從即日起至2025年2月8日,無論是已注冊的老用戶還是在此期間內注冊的新用戶,均可享受DeepSeek-V3 API服務的優惠價格,即每百萬輸入tokens的價格為0.1元(緩存命中)或1元(緩存未命中),每百萬輸出tokens的價格為2元。