ALTEN集團案例分享

一家專注於虛擬形象的日本元宇宙初創公司,致力於開發先進的AI模型以生成即時對話影片。為了幫助其創建虛擬角色,該公司聯繫了歐立騰集團旗下專注於軟體產品開發的企業——VMO Holdings。依托於VMO創新的技術解決方案,高品質、即時對話的AI虛擬角色如今已成功融入了該公司的元宇宙平台。

這家創新的日本初創公司希望為日本元宇宙觀眾生成高品質的影片內容。然而,現有的商業應用程式介面(API)中缺乏針對日語語音的訓練數據集,這成為實現精確語音轉文字功能的一大障礙。此外,第三方商業產品的高昂成本使得他們決定開發自有的AI產品。

挑戰:開發面向日本元宇宙受眾、專注於虛擬形象的即時對話影片生成的前沿AI技術。

解決方案:通過創新的AI模型研究,生成高品質、即時的AI虛擬角色,並對語音識別模型進行定製化優化,提升其在日語環境下的表現。

項目亮點:

  • 即時、高品質的對話AI角色
  • 先進的解決方案
  • 增強的AI能力
  • 優越的日語語音識別性能
  • 提高影片生成效率
  • 更快的處理時間和更高的解析度輸出

績效指標優化:

語音轉文字:

  • 處理時間減少75%
  • 日語語音轉文字準確度比市場標準提高15%

影片生成:

  • 語音與嘴唇動作對齊提升100%
  • 在相同GPU使用情況下,解析度從96×96提升至256×256
  • 即時輸入和輸出之間的延遲從45秒減少到小於3秒
  • 影片創建成本比傳統工具減少超過90%

人像對話影片:

這家新創企業與 VMO 合作,致力於為元宇宙平台革新虛擬交流方式。

該解決方案包含兩大核心部分。首先,針對高品質、即時對話的虛擬角色進行 AI 模型的研究與開發。這些模型支援動態影片生成,具備擬真的嘴型同步與臉部表情表現,並優化圖形處理器(GPU)的資源使用效率。其次,針對語音轉文字模型進行了微調,使其更能適應日語語音數據,彌補現有商業產品的不足。經過優化後,日語語音辨識的準確率顯著提升。影片生成效率的提升,不僅加快處理速度,也能輸出更高解析度的畫面。

首個 AI 嘴型同步模型已於 2023 年 9 月投入生產,採用了虛擬嘴型同步技術。當前版本實現了更加真實的嘴型同步,並已於 2024 年 1 月正式上線。

工具: 

模型訓練採用了 Nvidia GPU H100,以應對高強度的模型訓練任務。

語音轉文字的基準測試中,使用了 Whisper API 與多個預訓練模型,並與業界標準(如 OpenAI 與 Google ASR)進行對比。高階 AI 模型包含 SadTalker,用於高品質且 GPU 資源密集的影片生成。ER-NERF 則用於靜態人物的 D-ID 轉換,能將靜態照片轉化為個人化的串流式 AI 影片,同時優化 GPU 使用率。Wav2Lip 則實現了高效的全身動作生成,且具備良好的畫質表現。針對日語的模型微調,採用了自定義資料集,並結合內部的前處理與最佳化技術。

這套前沿技術方案實現了近乎即時的影片生成,將處理時間從 45 秒縮短至僅 5 秒,解析度為 96×96。

透過 VMO AI 的優化,影片畫質進一步提升,可在僅 3 秒內生成 256×256 像素的影片。日語語音識別表現優異,詞語錯誤率(WER)為 18.01,顯著優於 OpenAI 的 Whisper(21.11 WER)與 Google ASR(27.74 WER),展現出在日語支援方面的明顯優勢。

元宇宙的新視野:

這一創新的AI技術應用為日本觀眾提供了前所未有的虛擬角色生成進展,開闢了專注於他們需求和偏好的元宇宙新領域。