近日,中國移動攜手南京大學團隊,在人工智能領域取得了一項重要突破,成功研發出了一種高保真2D數字人說話驅動系統。這一創新旨在優化客戶服務體驗,降低運營成本,并為智能客服、教育培訓及廣告營銷等多個領域帶來革新。
作為全球用戶規模最大的通信運營商,中國移動面臨著巨大的客戶服務需求。盡管智能語音客服已經廣泛應用于日常業務中,但其提供的服務體驗仍無法與人工客服的面對面、個性化服務相提并論。為了改善這一現狀,中國移動九天視覺團隊與南京大學邰穎團隊攜手,共同研發了這款高保真2D數字人說話驅動系統。
該系統能夠根據目標人物的照片或視頻以及任意音頻,生成與之同步的說話視頻流。生成的數字人形象逼真,表情姿態自然,且具備較高的實時性。這一技術不僅實現了人物數字替身的構建,還與語言大模型、音頻合成能力進行了有機整合,為用戶提供了更為真實、自然的交互體驗。
在技術攻堅和方案創新方面,該系統取得了顯著的成果。首先,在實時播報口型生成技術上,該系統達到了學術界的領先水平,支持中英文數字人口型驅動,實時性能達到了30毫秒每幀。其次,通過研發二階段學習框架,系統將數字人說話驅動過程拆解為從音頻到口型系數、從口型系數到生成人像兩部分,降低了學習難度,提升了生成效果。最后,該系統還引入了情緒引導學習模塊,支持正常、微笑、驚訝、憤怒、恐懼、悲傷等七種主流情緒控制生成能力,使生成的數字人具備更加豐富的情感表達能力。
在實際應用中,該系統已經實現了端到端的二階段30幀每秒實時生成性能,并支持512×512人臉區域生成。同時,該系統還具備高興、悲傷等七種主流情緒控制生成能力,為用戶帶來了更加豐富的視覺體驗。在評測集VoxCeleb指標方面,該技術的口型準確性LMD達到了4.3,生成自然度FID達到了11.1,均表現出色。
據中國移動官方介紹,這一研發成果的應用前景廣闊。它不僅有效降低了創作門檻,提升了生成人物的視覺質量,還為5G新通話、和留言小秘書等品牌業務的拓展提供了有力支持。未來,隨著技術的不斷成熟和應用場景的不斷拓展,這一系統有望為更多領域帶來創新和變革。