近日,基調(diào)聽云,一家在可觀測(cè)性與應(yīng)用安全領(lǐng)域占據(jù)領(lǐng)先地位的公司,正式公布了其針對(duì)DeepSeek-R1推理大模型API服務(wù)的首期性能評(píng)測(cè)報(bào)告。這份報(bào)告深度剖析了多家提供DeepSeek-R1 API服務(wù)的供應(yīng)商,為開發(fā)者和最終用戶提供了寶貴的決策依據(jù)。
自DeepSeek-R1推理大模型于今年1月20日面世以來,其強(qiáng)大的邏輯推理能力迅速吸引了全球范圍內(nèi)的廣泛關(guān)注。然而,隨著用戶數(shù)量的急劇增長(zhǎng),官方服務(wù)頻繁遭遇報(bào)錯(cuò)和服務(wù)器繁忙等問題。面對(duì)這一挑戰(zhàn),多家第三方服務(wù)商適時(shí)推出了相關(guān)服務(wù),從而加劇了市場(chǎng)競(jìng)爭(zhēng)。
為了全面評(píng)估這些服務(wù)的性能,基調(diào)聽云利用其先進(jìn)的撥測(cè)工具,模擬真實(shí)用戶行為進(jìn)行了主動(dòng)監(jiān)控。測(cè)試覆蓋了網(wǎng)絡(luò)性能、接口響應(yīng)時(shí)間、推理速度、內(nèi)容生成速度等多個(gè)核心指標(biāo),并綜合考慮了城市、運(yùn)營(yíng)商、主機(jī)和時(shí)間等多個(gè)維度,以確保評(píng)測(cè)結(jié)果的準(zhǔn)確性和可靠性。
評(píng)測(cè)結(jié)果顯示,在參與評(píng)測(cè)的火山引擎、DeepSeek官方、硅基流動(dòng)、騰訊云、阿里云百煉等廠商中,火山引擎的表現(xiàn)尤為搶眼。其API響應(yīng)性能全面領(lǐng)先,平均速度、推理速度和生成速度均位居榜首,可用性高達(dá)99.83%,成為API接入的首選。相比之下,DeepSeek官方雖然在推理速度上表現(xiàn)不俗,但首Token延遲高達(dá)7.753秒,且可用性僅為42.21%,成為其明顯短板。硅基流動(dòng)的首Token響應(yīng)速度快且可用性穩(wěn)定,但平均速度相對(duì)較弱。騰訊云的整體性能較低,總性能最差,且可用性一般。阿里云百煉的平均速度最慢,首包時(shí)間最長(zhǎng),但可用性尚可。
進(jìn)一步從城市維度分析,火山引擎在北京、上海、廣州、深圳、蘇州、成都、重慶、武漢、杭州等城市測(cè)試中均保持了最高性能。DeepSeek官方在重慶的首Token時(shí)間最長(zhǎng),而在其他城市則均在9秒以內(nèi)。硅基流動(dòng)的可用性在廣州表現(xiàn)最差,但在其他城市均保持在98%以上。從運(yùn)營(yíng)商維度來看,DeepSeek官方在中國(guó)移動(dòng)網(wǎng)絡(luò)下的建連時(shí)間較長(zhǎng),而在其他運(yùn)營(yíng)商網(wǎng)絡(luò)下均在0.05秒以內(nèi)。其余服務(wù)商的指標(biāo)未見明顯差異。在主機(jī)維度上,騰訊云擁有數(shù)量最多、分布最廣的主機(jī),而DeepSeek官方的主機(jī)數(shù)量最少。從時(shí)間維度來看,不同時(shí)段各服務(wù)商的表現(xiàn)各異,整體受到用戶流量和服務(wù)器負(fù)載的影響。
此次評(píng)測(cè)不僅為開發(fā)者和企業(yè)用戶提供了詳實(shí)的數(shù)據(jù)支撐,有助于其科學(xué)選擇服務(wù)商并優(yōu)化產(chǎn)品體驗(yàn),還為普通用戶整理了支持DeepSeek-R1的第三方服務(wù)及相關(guān)網(wǎng)站信息。這些信息涵蓋了免費(fèi)和付費(fèi)模式,方便用戶根據(jù)自身需求進(jìn)行選擇。基調(diào)聽云還預(yù)告正在對(duì)網(wǎng)頁(yè)版本的DeepSeek-R1服務(wù)進(jìn)行評(píng)測(cè),并計(jì)劃后續(xù)發(fā)布相關(guān)評(píng)測(cè)結(jié)果。