谷歌DeepMind的首席執行官Demis Hassabis在近期的一次播客訪談中,揭示了谷歌AI發展的最新動向。在與領英聯合創始人Reid Hoffman共同主持的節目Possible中,Hassabis透露,谷歌正計劃將Gemini AI模型與Veo視頻生成模型進行深度整合,旨在增強Gemini對物理世界的認知與理解能力。
Hassabis強調,Gemini從一開始就被設計為具備多模態特性的基礎模型,這一決策背后承載著谷歌構建一個能夠在實際生活中為用戶提供切實幫助的通用數字助手的宏偉愿景。
當前,AI領域正邁向“全能”模型的新紀元,這類模型能夠跨越圖像、文本、音頻等多種媒體形式,實現信息的全面理解和整合。谷歌的Gemini模型便是這一趨勢的佼佼者,它不僅擅長圖像與文本的生成,還具備音頻創作的能力。與此同時,OpenAI的ChatGPT模型也已進化至能夠繪制圖像,包括獨具宮崎駿風格的藝術作品,展現了AI在藝術領域的新探索。亞馬遜同樣不甘落后,宣布將在今年晚些時候推出一款能夠實現“任意到任意”轉換的模型,進一步拓寬了AI的應用邊界。
為了實現這些“全能”模型的訓練,海量的數據資源是必不可少的。據Hassabis透露,Veo視頻模型的數據主要源自谷歌旗下的YouTube平臺。通過大量觀看YouTube視頻,Veo 2得以深入理解世界的物理規律,從而提升了其視頻生成與內容理解的準確性。此前,谷歌已向外界透露,其模型可能會依據與YouTube創作者達成的協議,使用部分YouTube內容進行訓練。為了獲取更多數據以優化AI模型,谷歌去年還對其服務條款進行了部分調整。