关于 / 新闻中心 / 助力日本元宇宙，打造实时对话人工智能虚拟形象

助力日本元宇宙，打造实时对话人工智能虚拟形象

欧立腾集团案例分享 一家专注于虚拟形象的日本元宇宙初创公司，致力于开发先进的 AI 模型以生成实时对话视频。为了帮助其创建虚拟角色，该公司联系了欧立腾集团旗下专注于软件产品开发企业—— VMO Holdings。依托于 VMO 创新的技术解决方案，高质量、实时对话的 AI 虚拟角色如今已经成功融入了该公司的元宇宙平台。

这家创新的日本初创公司希望为日本元宇宙观众生成高质量的视频内容。然而，现有的商业应用编程接口（API）中缺乏针对日本语音的训练数据集，这成为实现精确语音转文本功能的一大障碍。此外，第三方商业产品的高昂成本使得他们决定开发自有的AI产品。

挑战：开发面向日本元宇宙受众、专注于虚拟形象的实时对话视频生成的前沿 AI 技术。

解决方案：通过创新的 AI 模型研究，生成高质量、实时的AI虚拟角色，并对语音识别模型进行定制化优化，提升其在日语环境下的表现。

项目亮点：

实时、高质量的对话AI角色
先进的解决方案
增强的 AI 能力
优越的日语语音识别性能
提高视频生成效率
更快的处理时间和更高的分辨率输出

绩效指标优化： 语音转文本：

处理时间减少 75%
日语语音转文本准确度比市场标准提高 15%

视频生成：

语音与嘴唇动作对齐提升 100%
在相同 GPU 使用情况下，分辨率从 96×96 提升至 256×256
实时输入和输出之间的延迟从 45 秒减少到小于 3 秒
视频创建成本比传统工具减少超过 90%

人像对话视频

该初创企业与 VMO 合作，致力于为元宇宙平台革新虚拟交流方式。

该解决方案包含两个主要部分。首先是针对高质量、实时的对话虚拟角色进行 AI 模型研究与开发。这些模型支持生成动态视频，具有逼真的嘴型同步和面部表情，并优化了图形处理器（GPU）的资源占用。其次，针对语音转文本模型进行了微调，使其更适应日语数据，弥补现有商业产品的不足。经过优化后，日语语音识别的准确率显著提升。视频生成效率的提升帮使得处理速度更快，并能输出分辨率更高的画面。

首个 AI 嘴型同步模型于 2023 年 9 月投入生产，采用虚拟嘴型同步技术。当前版本实现了真实嘴型同步，并于 2024 年 1 月投入生产。

工具：

模型训练使用 Nvidia GPU H100，以应对高强度的模型训练任务。

语音转文本基准测试使用了 Whisper API 及多个预训练模型，以对比行业标准（如 OpenAI 和 Google ASR）。高级 AI 模型包括 SadTalker，用于高质量、GPU 密集型的视频生成。ER-NERF 用于静态人体的 D-ID 转换，将静态照片转化为个性化的流媒体 AI 视频，同时优化 GPU 使用率。Wav2Lip 实现了高效的全身动作生成，且质量良好。针对日语的模型微调使用了自定义的数据集，并结合内部预处理和优化技术。前沿技术方案实现了近乎实时的视频生成，将处理时间从 45 秒缩短至仅 5 秒，分辨率为 96×96。

VMO AI 提升了视频质量，仅用 3 秒即可生成分辨率为 256×256 像素的视频。日语语音识别的结果表现出色，词错误率（WER）为 18.01，远优于 OpenAI 的 Whisper（21.11 WER）和Google ASR（27.74 WER），在日语支持方面具有显著优势。

元宇宙的新视野

这一创新的 AI 技术应用为日本观众提供了前所未有的虚拟角色生成进展，开辟了专注于他们需求和偏好的元宇宙新领域。

分享这个故事！