小红花·文摘

豆言豆语Skill发布：让AI学会豆包的毒舌说话风格

张洪Heo ·

语言自生成：说话其实无需客观胡说八道很正常

极道 ·

speakrs 是一个用 Rust 实现的高速说话人分离工具，实时性能高达 529x，适合音频处理和会议转录。BoquilaHUB v0.5 更新了音频能力和 GUI 体验，增强了实时源功能。rproc 是 Linux 资源监控工具，提供直观的系统监控体验。Theta 是命令行工具，用于管理 AI Agent 配置，支持多平台，便于团队协作。

【Rust日报】2026-05-27 speakrs - 快速 Rust 说话人分离工具

Rust.cc ·

三个文档打造会说话智能体：SOUL USER AGENTS提示词精髓

极道 ·

Mango AI推出AI宝宝播客生成器，可将宝宝照片转换成对口型说话的视频

实时互动网 ·

VibeVoice-1.5B：微软开源文本转语音模型，可合成四个不同说话者长达 90 分钟的语音

实时互动网 ·

本文介绍了JoyGen框架，该框架通过130小时中文视频数据集解决了音频与唇部动作的同步及视觉质量问题，推动了AIGC领域的发展。

JoyGen：音频生成逼真的3D说话人脸视频

京东科技开发者 ·

Verbit 推出用于 ASR 直播字幕的说话人识别技术

实时互动网 ·

本文针对数字人类技术领域中音频驱动说话人脸视频生成的挑战，提出了一种联合不确定性学习网络(JULNet)。该方法通过引入与视觉误差相关的不确定性表示，同时优化误差和不确定性，大幅提升了生成视频的视觉质量和音频唇形同步效果，显示出比以往方法更高的保真度和鲁棒性。

基于音频驱动的说话人脸视频生成与联合不确定性学习

BriefGPT - AI 论文速递 ·

基于标签变异建模语音情感及分析不同说话者和未见声学条件下的性能

Apple Machine Learning Research ·

说话人IPL：基于i-vector的伪标签无监督学习说话人特征

Apple Machine Learning Research ·

本研究解决了在多说话人环境中提取特定说话人声音的难题，尤其是当缺乏干净音频样本时。通过对比目标说话人说话的音频片段（正录音）与未说话的片段（负录音），提出了一种新方法，实验结果表明该方法在现实场景中具有优越的性能，展现了良好的普适性。

通过比较有噪声的正负音频录音进行目标说话人提取

BriefGPT - AI 论文速递 ·

本文提出了一种多麦克风技术，用于在混合多说话人和方向性噪声的混响环境中提取目标说话者。实验结果表明，瞬时相对传递函数（RTF）方法优于传统的到达方向（DOA）和频谱嵌入方法。

基于相对传递函数的端到端多麦克风说话人提取

BriefGPT - AI 论文速递 ·

本研究解决了语音翻译系统中存在的说话者性别偏见问题，该偏见会导致翻译不准确和冒犯性表达。我们提出了一种创新方法，通过大型语言模型纠正翻译并根据说话者的性别微调语音翻译模型，实现更为准确的性别特定翻译。我们的工作在妇女的翻译准确率上相比基准提升了70%。

解决大规模语音翻译系统中的说话者性别偏见

BriefGPT - AI 论文速递 ·

本文针对当前说话人验证系统缺乏可解释性的问题，提出了一种新颖的可解释性语音特征导向网络（ExPO），该网络通过引入说话人的语音特征实现说话人特征的详细分析与可视化。这一方法在说话人验证中不仅提高了解释性，还深入探讨了语音特征的单说话人和跨说话人变异性，标志着可解释性说话人验证的一个重要进展。

可解释的语音特征导向网络用于说话人验证

BriefGPT - AI 论文速递 ·

本研究针对当前说话人自适应文本到语音（TTS）合成方法在目标语音样本数量和质量上存在的高敏感性问题，提出了一个名为Stable-TTS的新框架。该框架通过利用高质量的预训练数据集中少量样本的韵律一致性，有效捕捉目标说话人的音色，显著提升了合成能力，尤其在样本稀缺与噪音较多的情况下表现出色。

稳定的TTS：通过韵律提示实现稳定的说话人自适应文本到语音合成

BriefGPT - AI 论文速递 ·

本研究解决了在自动说话者验证和语音匿名化任务中，语音时间动态对隐私保护的影响。提出了基于音素时长的自动说话者验证度量方法，实验结果显示，音素时长会泄漏说话者信息，可能暴露说话者身份。本研究强调了考虑说话者语速和音素时长特征的重要性，并指出在开发具有强隐私保护能力的匿名化系统时，需对其进行调整。

说话者验证与语音匿名化背景下的语音时间动态分析

BriefGPT - AI 论文速递 ·

本文提出了一种新的语音转换模型，能够有效地转换说话和唱歌的声音，解决情感传递、发音和口音变化等挑战。该模型在混合语音样本上进行口音转换，保留原始内容和韵律，展现出在配音和文本到语音等应用中的潜力。

A Unified Model for Voice and Accent Conversion in Speech and Singing Using Self-Supervised Learning and Feature Extraction

BriefGPT - AI 论文速递 ·

本研究解决了一次性语音转换在实际应用中受到背景噪声干扰的问题，提出了抗噪声一次性语音转换系统Noro。该系统通过双分支参考编码模块和与噪声无关的对比说话者损失，显著提高了在干扰情况下一次性语音转换的效果，同时探讨了其在说话者表征学习上的潜力，展示了与先进的自监督学习模型竞争的能力。

诺罗：具备隐藏说话者表征能力的抗噪声一次性语音转换系统

BriefGPT - AI 论文速递 ·

本文探讨了利用单一声学模型进行多语言训练，以提升低资源语言的自动语音识别（ASR）性能。研究表明，多语言训练的ASR模型在51种语言上优于单语言训练，尤其在低资源语言方面。提出的多种模型和方法，如METHODNS和MC-SA-ASR，显著提高了多语言和低资源语音识别的效果。此外，研究介绍了MSR-86K语料库，为多语言ASR研究提供了新的数据支持。

MSA-ASR：利用冻结的ASR模型进行高效多语种说话人归属

BriefGPT - AI 论文速递 ·

豆言豆语Skill发布：让AI学会豆包的毒舌说话风格

语言自生成：说话其实无需客观 胡说八道很正常

【Rust日报】2026-05-27 speakrs - 快速 Rust 说话人分离工具

三个文档打造会说话智能体：SOUL USER AGENTS提示词精髓

Mango AI推出AI宝宝播客生成器，可将宝宝照片转换成对口型说话的视频

VibeVoice-1.5B：微软开源文本转语音模型，可合成四个不同说话者长达 90 分钟的语音

JoyGen：音频生成逼真的3D说话人脸视频

Verbit 推出用于 ASR 直播字幕的说话人识别技术

基于音频驱动的说话人脸视频生成与联合不确定性学习

基于标签变异建模语音情感及分析不同说话者和未见声学条件下的性能

说话人IPL：基于i-vector的伪标签无监督学习说话人特征

通过比较有噪声的正负音频录音进行目标说话人提取

基于相对传递函数的端到端多麦克风说话人提取

解决大规模语音翻译系统中的说话者性别偏见

可解释的语音特征导向网络用于说话人验证

稳定的TTS：通过韵律提示实现稳定的说话人自适应文本到语音合成

说话者验证与语音匿名化背景下的语音时间动态分析

A Unified Model for Voice and Accent Conversion in Speech and Singing Using Self-Supervised Learning and Feature Extraction

诺罗：具备隐藏说话者表征能力的抗噪声一次性语音转换系统

MSA-ASR：利用冻结的ASR模型进行高效多语种说话人归属

语言自生成：说话其实无需客观胡说八道很正常