趣丸科技與香港中文大學(xué)(深圳)聯(lián)手打造的語音大模型MaskGCT,近日宣布在Amphion系統(tǒng)中開源,供全球用戶使用。該模型憑借其獨特的技術(shù),在聲音克隆、跨語種合成及語音控制等領(lǐng)域展現(xiàn)出顯著優(yōu)勢。
MaskGCT采用掩碼生成模型與語音表征解耦編碼技術(shù),實現(xiàn)了秒級超逼真的聲音克隆,僅需3秒音頻樣本即可復(fù)刻各種音色,包括人類、動漫等,同時完整保留語調(diào)、風(fēng)格和情感。該模型還支持更精細可控的語音生成,可靈活調(diào)整語音的長度、語速和情緒。
MaskGCT的訓(xùn)練基于香港中文大學(xué)(深圳)與趣丸科技等機構(gòu)聯(lián)合推出的10萬小時數(shù)據(jù)集Emilia,這是全球最大且最為多樣的高質(zhì)量多語種語音數(shù)據(jù)集之一,涵蓋了中英日韓法德6種語言。
在官方實驗中,MaskGCT在語音質(zhì)量、相似度和可理解性方面均表現(xiàn)出色,優(yōu)于當(dāng)前大部分TTS模型。其兩階段模型設(shè)計,使得在推理過程中,模型能以并行方式生成指定長度的標(biāo)記,大幅提高效率。
目前,MaskGCT已在多個領(lǐng)域展現(xiàn)出廣泛應(yīng)用前景,如短劇出海、數(shù)字人、智能助手等。趣丸科技基于MaskGCT開發(fā)了多語種速譯智能視聽平臺“趣丸千音”,旨在降低翻譯成本,縮短制作周期,助力國產(chǎn)內(nèi)容出海。
《2024年短劇出海白皮書》顯示,海外市場規(guī)模遠超國內(nèi)市場,短劇出海正成為新藍海。趣丸千音有望幫助國產(chǎn)短劇以更低成本、更快捷的方式走向世界,提升中國文化內(nèi)容的出海效率。