欧立腾集团案例分享
一家专注于虚拟形象的日本元宇宙初创公司,致力于开发先进的 AI 模型以生成实时对话视频。为了帮助其创建虚拟角色,该公司联系了欧立腾集团旗下专注于软件产品开发企业—— VMO Holdings。依托于 VMO 创新的技术解决方案,高质量、实时对话的 AI 虚拟角色如今已经成功融入了该公司的元宇宙平台。
这家创新的日本初创公司希望为日本元宇宙观众生成高质量的视频内容。然而,现有的商业应用编程接口(API)中缺乏针对日本语音的训练数据集,这成为实现精确语音转文本功能的一大障碍。此外,第三方商业产品的高昂成本使得他们决定开发自有的AI产品。
挑战:开发面向日本元宇宙受众、专注于虚拟形象的实时对话视频生成的前沿 AI 技术。
解决方案:通过创新的 AI 模型研究,生成高质量、实时的AI虚拟角色,并对语音识别模型进行定制化优化,提升其在日语环境下的表现。
项目亮点:
绩效指标优化: 语音转文本:
视频生成:
人像对话视频
该初创企业与 VMO 合作,致力于为元宇宙平台革新虚拟交流方式。
该解决方案包含两个主要部分。首先是针对高质量、实时的对话虚拟角色进行 AI 模型研究与开发。这些模型支持生成动态视频,具有逼真的嘴型同步和面部表情,并优化了图形处理器(GPU)的资源占用。其次,针对语音转文本模型进行了微调,使其更适应日语数据,弥补现有商业产品的不足。经过优化后,日语语音识别的准确率显著提升。视频生成效率的提升帮使得处理速度更快,并能输出分辨率更高的画面。
首个 AI 嘴型同步模型于 2023 年 9 月投入生产,采用虚拟嘴型同步技术。当前版本实现了真实嘴型同步,并于 2024 年 1 月投入生产。
工具:
模型训练使用 Nvidia GPU H100,以应对高强度的模型训练任务。
语音转文本基准测试使用了 Whisper API 及多个预训练模型,以对比行业标准(如 OpenAI 和 Google ASR)。高级 AI 模型包括 SadTalker,用于高质量、GPU 密集型的视频生成。ER-NERF 用于静态人体的 D-ID 转换,将静态照片转化为个性化的流媒体 AI 视频,同时优化 GPU 使用率。Wav2Lip 实现了高效的全身动作生成,且质量良好。针对日语的模型微调使用了自定义的数据集,并结合内部预处理和优化技术。前沿技术方案实现了近乎实时的视频生成,将处理时间从 45 秒缩短至仅 5 秒,分辨率为 96×96。
VMO AI 提升了视频质量,仅用 3 秒即可生成分辨率为 256×256 像素的视频。日语语音识别的结果表现出色,词错误率(WER)为 18.01,远优于 OpenAI 的 Whisper(21.11 WER)和Google ASR(27.74 WER),在日语支持方面具有显著优势。
元宇宙的新视野
这一创新的 AI 技术应用为日本观众提供了前所未有的虚拟角色生成进展,开辟了专注于他们需求和偏好的元宇宙新领域。
用微信扫描
您已成功订阅
我们会尽快与您联系。
谢谢
北京市朝阳区望京利泽中园101号启明国际大厦A座12层
+86 10 8417 0088
business@cienet.com
www.cienet.com