沈阳自动化所在协同语音手势视频生成研究方面取得进展--中国科学院沈阳自动化研究所

沈阳自动化所在协同语音手势视频生成研究方面取得进展

发布时间：2026-03-17|【大中小】

协同语音手势视频生成，是从音频驱动的静态图像中生成生动的语音视频。由于身体各部位在运动幅度、音频相关性及细节特征上存在多样性，给生成任务带来了挑战。如果仅依赖音频作为控制信号，往往无法捕捉视频中大幅度的手势运动，从而导致更明显的伪影和失真，现有的方法通常是通过增加额外的先验输入来解决这一问题，但这可能会限制该任务的实际应用。

近日，中国科学院沈阳自动化研究所智能检测与装备研究室科研团队提出了一种运动掩码引导的双阶段手势视频生成网络方法。该方法无需额外先验信息，仅采用音频信号驱动人体上半身图像，即可实现口型、表情与手势协同变化的高质量视频生成。

科研人员构建了两阶段生成框架。在第一阶段，通过空间掩码引导的音频到姿态生成（SMGA）网络，从音频信号中生成与语音节奏同步的姿态序列及对应的运动掩码，有效捕捉面部和手势等关键区域的大幅度运动。在第二阶段，将姿态序列、运动掩码、音频特征与参考图像共同输入人体视频生成网络，并引入运动掩码分层音频注意力模块，对嘴唇、面部和手部等关键区域进行细粒度增强，从而显著提升生成视频的动作真实性、纹理细节表现以及整体时空一致性。该研究首次在语音驱动人体视频生成框架中引入运动掩码引导机制，为增强运动区域建模能力、提升细节表现并缓解视频生成中的伪影问题提供了新的技术思路。

该成果以MMGT: Motion Mask Guided Two-Stage Network for Co-Speech Gesture Video Generation为题，发表在人工智能与计算机视觉领域国际顶级期刊IEEE Transactions on Circuits and Systems for Video Technology（中国科学院1区Top, IF=11.1）。论文第一作者为博士生王思源和刘佳伟助理研究员，通讯作者为王伟研究员。该研究获得了国家自然科学基金项目的支持。

DOI：10.1109/TCSVT.2025.3604109

论文链接：https://ieeexplore.ieee.org/document/11145152

附件下载：