小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
VibeVoice-1.5B:微软开源文本转语音模型,可合成四个不同说话者长达 90 分钟的语音

微软的VibeVoice-1.5B是开源文本转语音技术的重大进展,支持长达90分钟的多说话人音频生成,具备跨语言和歌唱合成能力,采用流式架构,强调情感表现,适合播客和对话场景。

VibeVoice-1.5B:微软开源文本转语音模型,可合成四个不同说话者长达 90 分钟的语音

实时互动网
实时互动网 · 2025-08-26T07:05:45Z

本文介绍了JoyGen框架,该框架通过130小时中文视频数据集解决了音频与唇部动作的同步及视觉质量问题,推动了AIGC领域的发展。

JoyGen:音频生成逼真的3D说话人脸视频

京东科技开发者
京东科技开发者 · 2025-07-02T06:26:48Z
Verbit 推出用于 ASR 直播字幕的说话人识别技术

AI语音转录平台Verbit更新了Captivate ASR解决方案,能够识别自动字幕中的特定发言者特征,从而提供清晰的说话者字幕。该技术适用于新闻、天气和体育直播,提升实时字幕的准确性和清晰度。

Verbit 推出用于 ASR 直播字幕的说话人识别技术

实时互动网
实时互动网 · 2025-06-16T02:38:47Z

本文针对数字人类技术领域中音频驱动说话人脸视频生成的挑战,提出了一种联合不确定性学习网络(JULNet)。该方法通过引入与视觉误差相关的不确定性表示,同时优化误差和不确定性,大幅提升了生成视频的视觉质量和音频唇形同步效果,显示出比以往方法更高的保真度和鲁棒性。

基于音频驱动的说话人脸视频生成与联合不确定性学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-26T00:00:00Z
基于标签变异建模语音情感及分析不同说话者和未见声学条件下的性能

自发语音情感数据通常包含感知评分,因评分者意见差异而引入标签不确定性。我们提出使用情感评分的概率密度函数作为目标,替代常用的共识评分,从而在基准评估集上取得更好表现。此外,我们探讨了基于显著性驱动的基础模型选择,以训练多任务语音情感模型,并在情感识别上展示了最先进的性能。

基于标签变异建模语音情感及分析不同说话者和未见声学条件下的性能

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-02T00:00:00Z
说话人IPL:基于i-vector的伪标签无监督学习说话人特征

迭代自训练(IPL)通过改进模型生成伪标签,提升说话人表示质量。研究表明,简单的i-vector生成模型足以启动IPL过程,尽管初始模型较弱,但仍能达到与最先进方法相媲美的说话人验证性能。

说话人IPL:基于i-vector的伪标签无监督学习说话人特征

Apple Machine Learning Research
Apple Machine Learning Research · 2025-03-05T00:00:00Z

本研究解决了在多说话人环境中提取特定说话人声音的难题,尤其是当缺乏干净音频样本时。通过对比目标说话人说话的音频片段(正录音)与未说话的片段(负录音),提出了一种新方法,实验结果表明该方法在现实场景中具有优越的性能,展现了良好的普适性。

通过比较有噪声的正负音频录音进行目标说话人提取

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-23T00:00:00Z

本文提出了一种多麦克风技术,用于在混合多说话人和方向性噪声的混响环境中提取目标说话者。实验结果表明,瞬时相对传递函数(RTF)方法优于传统的到达方向(DOA)和频谱嵌入方法。

基于相对传递函数的端到端多麦克风说话人提取

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

本研究提出了一种新方法,解决流式多说话人语音翻译中的说话人变化检测与性别分类问题,实验结果表明其准确性高,具有重要应用价值。

基于转导器的多说话人语音翻译中的流式说话人变化检测与性别分类

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究提出CMR模型,通过自监督对比学习解决多方对话生成中对说话者和话题理解不足的问题,显著提升生成效果。

通过说话人感知对比学习推进多方对话系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-20T00:00:00Z

本研究提出了一种新声学条件方法,有效解决传统说话人分离系统在转换和重叠语音时的错误问题,显著降低了说话人错误率24-43%。

SEAL:使用声学条件大的语言模型进行说话人错误纠正

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-14T00:00:00Z

本研究解决了语音翻译系统中存在的说话者性别偏见问题,该偏见会导致翻译不准确和冒犯性表达。我们提出了一种创新方法,通过大型语言模型纠正翻译并根据说话者的性别微调语音翻译模型,实现更为准确的性别特定翻译。我们的工作在妇女的翻译准确率上相比基准提升了70%。

解决大规模语音翻译系统中的说话者性别偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-10T00:00:00Z

本文针对当前说话人验证系统缺乏可解释性的问题,提出了一种新颖的可解释性语音特征导向网络(ExPO),该网络通过引入说话人的语音特征实现说话人特征的详细分析与可视化。这一方法在说话人验证中不仅提高了解释性,还深入探讨了语音特征的单说话人和跨说话人变异性,标志着可解释性说话人验证的一个重要进展。

可解释的语音特征导向网络用于说话人验证

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-10T00:00:00Z

本研究针对当前说话人自适应文本到语音(TTS)合成方法在目标语音样本数量和质量上存在的高敏感性问题,提出了一个名为Stable-TTS的新框架。该框架通过利用高质量的预训练数据集中少量样本的韵律一致性,有效捕捉目标说话人的音色,显著提升了合成能力,尤其在样本稀缺与噪音较多的情况下表现出色。

稳定的TTS:通过韵律提示实现稳定的说话人自适应文本到语音合成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-28T00:00:00Z

本研究解决了在自动说话者验证和语音匿名化任务中,语音时间动态对隐私保护的影响。提出了基于音素时长的自动说话者验证度量方法,实验结果显示,音素时长会泄漏说话者信息,可能暴露说话者身份。本研究强调了考虑说话者语速和音素时长特征的重要性,并指出在开发具有强隐私保护能力的匿名化系统时,需对其进行调整。

说话者验证与语音匿名化背景下的语音时间动态分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-22T00:00:00Z

本文介绍了“说话与提升挑战2025”,旨在推动口语评估与反馈研究,填补技术与语言学习反馈之间的空白。研究引入Speak Improve 2025语料库,为二语学习者提供评分和错误标注的数据集,包含340小时音频和60小时转录,设有四个共享任务,强调自动化对语言学习的影响。

说话与提升挑战2025:任务与基线系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本文提出了一种新方法,利用对抗网络生成扰动信号,以应对神经网络在输入数据上遭受微小扰动攻击的脆弱性。研究表明,扰动具有可逆性,授权实体能够恢复原始语音,实验结果证明该方法有效保护隐私。

声音隐私保护中的说话者对抗扰动的生成与去除

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究解决了一次性语音转换在实际应用中受到背景噪声干扰的问题,提出了抗噪声一次性语音转换系统Noro。该系统通过双分支参考编码模块和与噪声无关的对比说话者损失,显著提高了在干扰情况下一次性语音转换的效果,同时探讨了其在说话者表征学习上的潜力,展示了与先进的自监督学习模型竞争的能力。

诺罗:具备隐藏说话者表征能力的抗噪声一次性语音转换系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-29T00:00:00Z

我们提出了一种端到端的多通道说话人归属自动语音识别系统(MC-SA-ASR),结合了Conformer编码器和Transformer解码器。该系统在LibriSpeech数据集上实现了12%至16%的词错误率降低,并在AMI语料库中验证了其在真实会议转录中的有效性。

MSA-ASR:利用冻结的ASR模型进行高效多语种说话人归属

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本研究提出了一种新方法,构建包含混合信号和真实信号的训练数据集,以解决说话人分离问题。评估结果表明,在真实混音条件下,性能提升了1.65 dB,验证了现实训练集的有效性。

开发有效的训练数据集以提高基于人工智能的说话人分离系统性能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码