颠覆视频配音！字节跳动推出神级AI模型PersonaTalk！

赞助商家

￥180元/年 10字以内	免费AI工具智能创新	办公工具集效率提升
AI工具官网实用导航	AI工具大全智能办公	AI工具集合办公导航

近日，字节跳动研发出一款名为PersonaTalk的前沿AI模型，彻底革新了视频配音技术。它不仅能实现声音与嘴型的精确同步，更能在生成新视频时保留人物的原始说话风格、面部特征及表情，使视频表现得真实自然。

内容概述：

声音同步嘴型：
- PersonaTalk确保新声音添加时，人物嘴部动作与语音口型完美匹配。无论人物说话、微笑或做其他表情，嘴唇动作均与新语音同步，如同他们真的在说那些话。
保留人物特点：
- 创建新视频时，PersonaTalk尽力保留人物原有特点，包括说话方式、脸型及表情。这确保了生成视频的真实感与自然度，避免了僵硬或不协调的情况。
适用于不同人物：
- 与传统配音技术不同，PersonaTalk无需大量数据单独训练每个人物，使其能适应不同人物和多样化场景，为视频制作提供了更大的灵活性和便利性。

PersonaTalk是一个基于注意力机制的两阶段框架，包括几何结构和人脸渲染两部分。

第一阶段：
- 使用混合几何估计方法从参考视频中提取说话者的面部几何系数。
- 从目标音频中提取并编码音频特征，学习个性化说话风格，并将其注入音频特征中。
- 根据参考视频的几何系数和目标音频生成与目标音频口型同步且保留个性化说话风格的目标几何图形。
第二阶段：
- 使用双重注意力机制的人脸渲染器合成目标说话人脸。
- 采用精心设计的参考选择策略，生成与目标几何图形口型同步的人脸。