近日,知名科技媒體9to5Mac發布了一項引人注目的對比測試結果,聚焦于蘋果最新推出的轉錄API與OpenAI的Whisper模型之間的性能差異。測試中,該媒體采用了一段9to5Mac Daily播客音頻作為樣本,時長7分31秒,用以評估蘋果新API、通過MacWhisper應用運行的OpenAI Whisper Large v3 Turbo以及英偉達的Parakeet v2模型的轉錄效果。
測試環境為搭載M2 Pro芯片、配備16GB內存的MacBook Pro筆記本,利用Hugging Face Spaces的Metric: cer和Metric: wer工具,精確測量了各模型的字符錯誤率(CER)和單詞錯誤率(WER)。
結果顯示,英偉達的Parakeet v2在轉錄速度上拔得頭籌,僅需2秒即可完成轉錄,但其CER和WER相對較高。相比之下,OpenAI的Whisper Large V3 Turbo雖然轉錄時間長達40秒,卻展現了最高的準確性。蘋果的轉錄API則在速度與準確性之間找到了一個平衡點,轉錄時間接近Parakeet v2的9秒,同時準確性顯著優于后者。
為了更全面地評估各模型的性能,9to5Mac還引入了ChatGPT、Claude和Gemini作為基線,再次計算了CER和WER。盡管不同基線下的模型表現有所差異,但Whisper在準確性方面始終保持著領先地位。以ChatGPT為基線時,蘋果的模型在保持較快轉錄速度的同時,其準確性略遜于Whisper,但仍優于Parakeet v2。而在Claude和Gemini的基線測試中,蘋果模型的準確性雖有所提升,但仍未能超越Whisper。
具體而言,在ChatGPT基線測試中,Parakeet v2的轉錄時間最短,但錯誤率最高;Whisper的準確性最高,轉錄時間最長;蘋果模型則位于兩者之間。Claude和Gemini基線測試的結果也呈現出類似的趨勢,即Whisper在準確性上獨占鰲頭,而蘋果模型則在速度與準確性之間取得了相對平衡的表現。