一家专注于虚拟形象的日本元宇宙初创公司,致力于开发先进的AI模型以生成实时对话视频。为了帮助其创建虚拟角色,该公司联系了欧立腾集团旗下专注于软件产品开发企业——VMO Holdings。依托于VMO创新的技术解决方案,高质量、实时对话的AI虚拟角色如今已经成功融入了该公司的元宇宙平台。
这家创新的日本初创公司希望为日本元宇宙观众生成高质量的视频内容。然而,现有的商业应用编程接口(API)中缺乏针对日本语音的训练数据集,这成为实现精确语音转文本功能的一大障碍。此外,第三方商业产品的高昂成本使得他们决定开发自有的AI产品。
挑战:开发面向日本元宇宙受众、专注于虚拟形象的实时对话视频生成的前沿AI技术。
解决方案:通过创新的AI模型研究,生成高质量、实时的AI虚拟角色,并对语音识别模型进行定制化优化,提升其在日语环境下的表现。
项目亮点:
- 实时、高质量的对话AI角色
- 先进的解决方案
- 增强的AI能力
- 优越的日语语音识别性能
- 提高视频生成效率
- 更快的处理时间和更高的分辨率输出
绩效指标优化:
语音转文本:
- 处理时间减少75%
- 日语语音转文本准确度比市场标准提高15%
视频生成:
- 语音与嘴唇动作对齐提升100%
- 在相同GPU使用情况下,分辨率从96×96提升至256×256
- 实时输入和输出之间的延迟从45秒减少到小于3秒
- 视频创建成本比传统工具减少超过90%
人像对话视频
该初创企业与VMO合作,致力于为元宇宙平台革新虚拟交流方式。
该解决方案包含两个主要部分。首先是针对高质量、实时的对话虚拟角色进行AI模型研究与开发。这些模型支持生成动态视频,具有逼真的嘴型同步和面部表情,并优化了图形处理器(GPU)的资源占用。其次,针对语音转文本模型进行了微调,使其更适应日语数据,弥补现有商业产品的不足。经过优化后,日语语音识别的准确率显著提升。视频生成效率的提升帮使得处理速度更快,并能输出分辨率更高的画面。
首个AI嘴型同步模型于2023年9月投入生产,采用虚拟嘴型同步技术。当前版本实现了真实嘴型同步,并于2024年1月投入生产。
工具:
模型训练使用Nvidia GPU H100,以应对高强度的模型训练任务。
语音转文本基准测试使用了Whisper API及多个预训练模型,以对比行业标准(如OpenAI和Google ASR)。高级AI模型包括SadTalker,用于高质量、GPU密集型的视频生成。ER-NERF用于静态人体的D-ID转换,将静态照片转化为个性化的流媒体AI视频,同时优化GPU使用率。Wav2Lip实现了高效的全身动作生成,且质量良好。。针对日语的模型微调使用了自定义的数据集,并结合内部预处理和优化技术。前沿技术方案实现了近乎实时的视频生成,将处理时间从45秒缩短至仅5秒,分辨率为96×96。
VMO AI提升了视频质量,仅用 3 秒即可生成分辨率为 256×256 像素的视频。日语语音识别的结果表现出色,词错误率(WER)为18.01,远优于OpenAI的Whisper(21.11 WER)和Google ASR(27.74 WER),在日语支持方面具有显著优势。
元宇宙的新视野
这一创新的AI技术应用为日本观众提供了前所未有的虚拟角色生成进展,开辟了专注于他们需求和偏好的元宇宙新领域。