小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了Llasa框架,解决了基于大语言模型的文本到语音系统在训练和推理阶段的计算能力扩展问题。实验结果表明,延长训练时间可以显著提升合成语音的自然性、复杂性和情感表现。

Llasa: Scaling Compute Capacity for Training and Inference Time in Llama-based Speech Synthesis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-06T00:00:00Z

本研究提出了Speech-Forensics数据集,旨在解决合成语音与真实语音的检测问题。该数据集包含真实、合成及部分伪造的语音样本。通过TEmporal Speech LocalizaTion网络(TEST),实现了真实性检测和伪造片段定位,模型性能优异,为未来研究奠定了基础。

Speech Forensics: Establishment and Analysis of a Comprehensive Synthetic Speech Dataset

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究分析了合成语音检测器在恶意攻击下的不足,特别是音频转码和背景噪音对其性能的影响,指出现有检测方法的脆弱性,并呼吁开发更强的检测技术以应对不断演变的威胁。

Can DeepFake Speech be Reliably Detected?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本研究探讨了合成语音的检测技术,提出了多种新方法和数据集,以应对AI生成语音带来的隐私和伦理挑战。通过优化模型和数据集,显著提高了检测准确率,强调了音频水印技术和深伪检测的重要性。

SONAR:合成 AI 音频检测框架及基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-06T00:00:00Z

本研究提出了多种合成语音生成方法,以提高发音错误检测的准确性,并开发了新数据集RedPen用于评估语音模型。通过合成数据训练,显著提升了纠错模型的性能,解决了对人类语音数据的依赖问题。此外,研究还探讨了伪造音频检测和标点恢复模型的改进,强调了人类知识在技术中的重要性。

SpMis:合成口语虚假信息检测的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

本文介绍了多种语音处理技术,包括CTC模型对齐算法、Diff-TTSG合成语音与手势的联合学习模型、Dynamic-SUPERB基准评估平台、H-UDM不流利演讲建模方法及YOLO-Stutter检测技术,旨在提高语音对齐、合成质量和不流利检测的准确性与效率。

可扩展的语音不流畅建模(SSDM)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

合成语音的逼真性不断增强,但伦理问题也随之出现。音频水印技术可以解决虚假信息传播的问题,但在面对干扰时仍不稳健。本文提出了一个评估音频水印技术稳健性的系统化基准,结果显示当前技术脆弱,需要更稳健和公平的音频水印技术。

GROOT:基于扩散模型的音频合成生成鲁棒性水印

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本文提出了基于Transformer的深度学习模型解决音频视觉语音修复问题,实验结果显示该模型优于之前的音频-视觉模型和音频模型。使用AV-HuBERT提取的视觉特征可合成语音。

序列到序列多模态语音修复

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z
OpenAI的语音克隆AI模型只需15秒样本即可运行

OpenAI推出了名为Voice Engine的文本转语音生成平台,可根据15秒语音片段创建合成语音。AI生成的语音可按命令用同一语言或其他语言朗读文本提示。OpenAI表示,这有助于为各行各业的良好使用提供指导。目前可使用该技术的公司包括Age of Learning、HeyGen、Dimagi、Livox和Lifespan。OpenAI还为音频剪辑添加了水印以追踪来源,并积极监控音频使用情况。

OpenAI的语音克隆AI模型只需15秒样本即可运行

The Verge
The Verge · 2024-03-29T23:10:16Z
应对合成语音的挑战与机遇

OpenAI发布了名为Voice Engine的模型的初步见解和结果。该模型使用文本输入和15秒的音频样本生成与原始说话者非常相似的自然语音。OpenAI对广泛发布持谨慎态度,因为合成语音的滥用可能性。他们希望就负责任的部署展开对话,并探讨社会如何适应这些新能力。Voice Engine的早期应用包括提供阅读辅助、翻译内容、触达全球社区、支持非语言人士和帮助患者恢复语音。OpenAI致力于安全构建Voice Engine,并已实施安全措施。他们认为,任何广泛部署的合成语音技术都应伴随着声音认证体验和保护个人声音的政策。OpenAI鼓励逐步淘汰基于声音的认证,教育公众AI技术,并加快开发追踪音频视觉内容来源的技术。他们致力于参与关于合成语音的挑战和机遇的对话。

应对合成语音的挑战与机遇

OpenAI
OpenAI · 2024-03-29T07:00:00Z
应对合成语音的挑战与机遇

OpenAI展示了Voice Engine模型,该模型通过文本和15秒音频样本生成自然语音,尽管模型较小,但声音情感丰富。OpenAI在评估合成语音的潜在滥用后,计划与社会对话,探讨负责任的应用。

应对合成语音的挑战与机遇

OpenAI
OpenAI · 2024-03-29T00:00:00Z

Uber、Twitter、梅塔、Voicebox、谷歌、亚马逊、Spotify、Canva和Salesforce等公司推出了各种基于人工智能的新产品和服务,包括全长视频广告、音乐生成器、合成语音、虚拟试穿工具、AI总结购物应用程序、开发者平台和AI工具等。

Salesforce AI云、谷歌AI虚拟试穿等上周AI产品新闻

极道
极道 · 2023-06-18T00:05:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码