小红花·文摘

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架LongCat 1.5；百万级图表理解数据集ChartNet提升VLM图表重建与表格提取能力

HyperAI超神经 ·

入选NeurIPS 2025，智源/北大/北邮提出多流控制视频生成框架，基于音频解混实现精确音画同步

HyperAI超神经 ·

在线教程丨影视级视频生成模型Wan2.2-S2V-14B，仅需静态图和音频可生成分钟级数字人视频

HyperAI超神经 ·

技术洞察：音频驱动口型生成技术解析 | 咪咕灯塔智库

实时互动网 ·

本研究提出AsynFusion框架，解决全身音频驱动头像生成中面部表情与手势协调不足的问题。该方法通过扩散变压器实现表情与手势的和谐合成，实验结果表明其在实时同步全身动画生成方面优于现有技术。

AsynFusion: An Asynchronous Latent Consistency Model for Decoupled Whole-Body Audio-Driven Avatars

BriefGPT - AI 论文速递 ·

Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

机器之心 ·

本研究提出了PC-Talk框架，旨在改善音频驱动的口语面孔生成中的面部动画控制，尤其是在唇音同步和情感表达方面。实验结果表明，该方法在HDTF和MEAD数据集上表现优异。

PC-Talk: Precise Facial Animation Control in Audio-Driven Talking Face Generation

BriefGPT - AI 论文速递 ·

本研究提出ExGes框架，优化音频驱动的人类手势合成，解决了粗糙性和表现性不足的问题。通过构建手势库和应用对比学习等技术，显著提升了生成手势的自然性和语义相关性，实验结果表明其优于现有方法。

真假难辨！阿里升级AI人像视频生成，表情动作直逼专业水准

机器之心 ·

本研究提出FADA方法，解决音频驱动对话头像的慢推理速度问题。通过混合监督损失和多CFG蒸馏，FADA显著提高了模型的稳健性和推理速度，速度提升可达4.17-12.5倍，生成效果媲美最新扩散模型。

FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation

BriefGPT - AI 论文速递 ·

本研究提出了GoHD框架，旨在提升音频驱动的谈话头像生成中的肖像多样性和音频与面部运动的关系。该框架结合三大模块，显著提高了肖像视频的真实感和可控性，实验结果表明其表现优异。

GoHD: Gaze-Oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expressions

BriefGPT - AI 论文速递 ·

本研究提出了一种音频驱动的头部生成框架INFP，旨在解决双人对话中社交智能体动态形象生成的难题。实验结果表明，该方法在互动场景中表现优越。

INFP: Audio-Based Head Generation for Interactive Dyadic Conversations

BriefGPT - AI 论文速递 ·

本研究提出了JoyVASA框架，解决了音频驱动肖像动画模型在训练效率和视频时长上的限制。通过解耦动态面部表情与静态3D表示，JoyVASA能够生成更长的视频并实现动物面部动画，实验结果表明其在动画质量和保真度上具有显著优势。

JoyVASA: Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation for Portrait and Animal Image Animation

BriefGPT - AI 论文速递 ·

本研究利用CNN和GAN模型生成逼真的3D虚拟人物，涵盖肢体手势、面部表情和语音。提出了多模态交互界面的必要性，并开发了Ada-TTA和VLOGGER方法，以提升音频驱动视频生成的质量和多样性。此外，研究创建了HIMO数据集，解决多物体交互的挑战，并提出LBLM-AVA模型，显著提高手势生成的准确性和真实感。

Allo-AVA：一种大规模多模态对话AI数据集用于分视角虚拟化身手势动画

BriefGPT - AI 论文速递 ·

本研究提出了多种视频生成模型，优化了时序一致性和音频驱动效果。通过新方法如EMO和Loopy，提升了说话和肖像视频的真实感与表现力，解决了传统技术的局限性，并展示了高效的动态视频风格化和编辑能力，推动了视频生成技术的发展。

Hallo2：长时长和高分辨率音频驱动的人物图像动画

BriefGPT - AI 论文速递 ·

本研究提出了DreamHead框架，旨在改善音频驱动的说话头合成中音频线索与面部表情的时空对应关系。通过预测面部特征点，DreamHead能够有效生成高保真度的说话头视频，具有重要的应用潜力。

DreamHead: Learning Spatial-Temporal Correspondence in Audio-Driven Talking Head Synthesis via Hierarchical Diffusion

BriefGPT - AI 论文速递 ·

本研究提出了一种新的音频驱动的深度强化学习框架，用于导航和头部方向控制。通过深度Q学习算法开发自主代理，使其能够根据立体声录音朝向说话者。未来需要改善训练策略以增强在多样化环境中的鲁棒性。

基于音频的强化学习在自然环境中的头部方向控制

BriefGPT - AI 论文速递 ·

字节AI和浙大合作研发的Loopy项目能通过图像和音频生成自然的视频，具有良好的生成效果和视觉一致性。Loopy由ReferenceNet、DenoisingNet、Apperance和Audio四部分构成，能处理各种场景和细节。此前还有类似的项目CyberHost，但CyberHost是一个音频驱动的人类动画模型。

本研究提出了多个基于扩散模型的框架，用于生成高保真的音频驱动手势和对话头像视频。ANGIE框架捕捉手势模式，DiffGesture确保音频与手势的时间一致性，DiffPoseTalk辅助生成面部动画，FreeTalker生成语音驱动的手势，DiffSHEG同步表情与手势，ConvoFusion调节多模态手势。MoDiTalker解决对话头像生成中的质量问题，运动解耦框架和PoseLatent Diffusion模型显著提升了生成效果。

DiffTED：利用扩散生成的音频驱动TED演讲视频生成方法

BriefGPT - AI 论文速递 ·

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架LongCat 1.5；百万级图表理解数据集ChartNet提升VLM图表重建与表格提取能力

从”对口型”到”数字人” 音频驱动虚拟人合成技术全景解析

入选NeurIPS 2025，智源/北大/北邮提出多流控制视频生成框架，基于音频解混实现精确音画同步

在线教程丨影视级视频生成模型Wan2.2-S2V-14B，仅需静态图和音频可生成分钟级数字人视频

技术洞察：音频驱动口型生成技术解析 | 咪咕灯塔智库

AsynFusion: An Asynchronous Latent Consistency Model for Decoupled Whole-Body Audio-Driven Avatars

Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

PC-Talk: Precise Facial Animation Control in Audio-Driven Talking Face Generation

ExGes：基于音频驱动的表现性人类运动检索与调制

真假难辨！阿里升级AI人像视频生成，表情动作直逼专业水准

FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation

GoHD: Gaze-Oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expressions

INFP: Audio-Based Head Generation for Interactive Dyadic Conversations

JoyVASA: Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation for Portrait and Animal Image Animation

Allo-AVA：一种大规模多模态对话AI数据集用于分视角虚拟化身手势动画

Hallo2：长时长和高分辨率音频驱动的人物图像动画

DreamHead: Learning Spatial-Temporal Correspondence in Audio-Driven Talking Head Synthesis via Hierarchical Diffusion

基于音频的强化学习在自然环境中的头部方向控制

字节AI版小李子一开口：黄风岭，八百里

DiffTED：利用扩散生成的音频驱动TED演讲视频生成方法