BriefGPT - AI 论文速递 ·

听你的脸：基于面部的语音转换与基频估计

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了一系列音视频关联技术，包括面部与声音的有效关联、情感音频转换、说话人无关的情感转换框架和基于神经网络的唇面同步翻译系统。这些方法通过实验验证了在音频和视觉信号处理中的有效性，提升了人脸识别、语音转换和视频生成的准确性与自然性。

🎯

关键要点

提出了一种音视频关联系统，通过聚合视频中的统计数据实现面部与声音的有效关联，准确率约为71%。
使用循环生成对抗网络和小波变换将非平行语音数据转化为伪对传递，完成情感音频转换，实验结果优于基准。
提出了一个说话人无关的情感语音转换框架，使用VAW-GAN结构和连续小波变换进行谱和韵律转换，获得竞争力结果。
基于先前学习的语音-面部相关性，提出引导自编码器框架，提高人脸检索和识别的准确性。
提出基于AVCT的一次性说话脸部生成框架，生成具有真实嘴部形状和生动运动的视频。
提出基于神经网络的端到端系统，实现语音保留和唇面同步翻译视频，生成令人信服的视频。
研究声音到三维面部形状的重建能力，发现声音与面部几何特征之间存在显著相关性。
提出零样本面部语音转换方法，通过面部-语音对齐模块实现语音特征转换，证明其优越性。
介绍基于面部图像生成自然语音的零样本文本到语音合成模型，实验结果优于基准模型。
整合Talking Face Generation和Text-to-Speech系统，实现高质量的运动代码生成和均匀语音输出。

❓

延伸问答

音视频关联系统的准确率是多少？

该系统的准确率约为71%。

如何实现情感音频转换？

通过使用循环生成对抗网络和小波变换将非平行语音数据转化为伪对传递来完成情感音频转换。

什么是说话人无关的情感语音转换框架？

这是一个使用VAW-GAN结构和连续小波变换进行谱和韵律转换的框架，能够在不同说话人之间实现情感转换。

如何提高人脸检索和识别的准确性？

通过引导自编码器框架，匹配语音信息与目标面孔形态学变换来显著提高准确性。

零样本面部语音转换方法的优势是什么？

该方法通过面部-语音对齐模块实现语音特征转换，实验结果证明其在零样本任务中的优越性。

如何生成自然语音与面部图像的对应关系？

通过结合面部编码器和韵律编码器的零样本文本到语音合成模型来生成自然语音。

🏷️

标签

人脸识别唇面同步情感转换语音转换音视频关联

➡️

继续阅读

XMOS推出搭载先进AI语音处理的VocalFusion XVF3620
XMOS 发布了新一代语音处理器 VocalFusion XVF3620，它将 AI 降噪技术与完整的片上语音处理流程相结合，即使在嘈杂、混响和动态环境中...
阿里团队自研 AOQ 协议，为多模态 AI 构建确定性传输底座
随着大模型向多模态全面演进，AI 应用正从云端走向终端。端侧公网“最后一公里”的网络波动与 AI 推理所需要海量数据的实时传输需求之间，存在较大的冲突，会...
台积电拟于2027年最高提价10%；苹果拟推出设备租赁计划以提振销量；2026年《财富》中国500强发布
（全球TMT 2026年07月22日讯）今日要点：台积电拟于2027年最高提价10%；三星电子规划未来5年在韩 […]
让 AI 快速「读懂」你的代码仓：Joy-Code-Graph 云端图谱服务的三次进化
代码知识图谱不是要取代 AI 的智能，而是要补齐它对代码全局关系的认知盲区。当 AI 能一眼看清「谁调用了谁、改动会波及哪里」，它写出的代码才真正靠谱；当...
ResULIC：语义残差编码与压缩感知扩散的超低码率图像压缩 | ICML 2025
图像压缩的核心目标是在尽可能低的码率下保留尽可能高的视觉质量。近年来，学习式图像压缩方法在客观指标和主观感知质量上取得了显著进展，但在极低码率场景下仍面临...
业内首款超算+智算的大规模计算底座，在WAIC上我们找到了
一颗“不走寻常路”的芯