小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
17.3K Star!微软开源VibeVoice,AI语音合成新突破,支持90分钟多人对话和实时流式TTS

微软开源的VibeVoice项目能够生成最长90分钟的自然多人对话音频,支持最多4个说话人,突破传统TTS限制,兼容中英文及多语言合成,适合播客和教育内容制作。

17.3K Star!微软开源VibeVoice,AI语音合成新突破,支持90分钟多人对话和实时流式TTS

dotNET跨平台
dotNET跨平台 · 2025-12-19T00:03:39Z
服务地理空间、视觉及更多:在vLLM中实现多模态输出处理

vLLM支持多模态输出处理,集成地理空间基础模型,提升图像分类和音频合成等任务的效率。通过IO处理器插件,用户可以灵活处理模型的输入输出,简化操作,支持多种数据格式,推动多模态模型的发展。

服务地理空间、视觉及更多:在vLLM中实现多模态输出处理

vLLM Blog
vLLM Blog · 2025-09-05T00:00:00Z

生成式AI是一种根据用户输入生成内容的人工智能,涵盖自然语言、图像、音频和代码。它利用大语言模型进行自然语言处理,分析输入并生成独特的输出,常见应用包括文本生成、图像创作、音频合成和代码编写。

技术速递|生成式 AI 和 LLM 工作原理

dotNET跨平台
dotNET跨平台 · 2025-09-02T23:59:54Z
Stability AI 推出 ARC 后期训练和 Stable Audio Open Small:无蒸馏实现跨设备文本转音频生成的突破

文本转音频生成技术通过对抗性相对对比损失(ARC)实现高效合成,显著提升生成速度,适用于移动设备。Stable Audio Open Small模型优化推理过程,支持实时应用,提升音频质量和多样性。

Stability AI 推出 ARC 后期训练和 Stable Audio Open Small:无蒸馏实现跨设备文本转音频生成的突破

实时互动网
实时互动网 · 2025-05-16T02:09:30Z

本研究提出了一种新型生成对抗网络(DPN-GAN),旨在解决音频合成中的分辨率限制和模式崩溃问题。通过引入周期性偏置的ReLU激活函数和可变形卷积模块,DPN-GAN显著提高了合成音频的质量和保真度。

DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z
NVIDIA AI 推出 Audio-SDS:基于扩散的统一框架,无需专门数据集即可实现提示引导音频合成和源分离

音频扩散模型已实现高质量音频合成,但参数优化不足。研究者提出Audio-SDS方法,结合预训练模型,优化音频表示,支持FM合成和源分离等任务,提升合成效果与文本提示的一致性,展示了数据蒸馏在音频领域的潜力。

NVIDIA AI 推出 Audio-SDS:基于扩散的统一框架,无需专门数据集即可实现提示引导音频合成和源分离

实时互动网
实时互动网 · 2025-05-12T08:50:32Z
构建一个开源AI的PDF转播客管道:从文本提取到语音合成

这篇文章介绍了一种将PDF文档转换为播客的AI管道。该管道利用PyMuPDF提取文本,Featherless.ai生成对话脚本,以及Kokoro进行音频合成,使用户能够轻松将静态内容转化为音频体验,适合研究人员、专业人士和博主,提升信息获取的便利性。

构建一个开源AI的PDF转播客管道:从文本提取到语音合成

DEV Community
DEV Community · 2025-03-11T08:59:08Z

Acoustica Mixcraft 是一款专业音频合成工具,支持多轨录音和音频、MIDI轨道创建,提供丰富的虚拟乐器和效果,适合音乐制作和视频编辑,界面友好,适用于多种音乐风格。

Acoustica Mixcraft Pro – 一款多音轨音效混合器软件

老董日志
老董日志 · 2025-01-21T23:29:26Z

研究提出EMO框架,通过音频直接合成视频,提升说话视频的真实感和表现力,无需3D模型或面部标记,确保帧过渡平滑和身份一致。实验表明,EMO在生成逼真视频方面优于现有方法。

Hallo2:长时长和高分辨率音频驱动的人物图像动画

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z
突破音频质量障碍:引入 PeriodWave-Turbo 实现高效波形合成

韩国研究人员开发了名为PeriodWave-Turbo的模型,旨在加快音频合成速度,保持音频质量。该模型通过简化步骤,减少了创建高保真音频所需的时间。使用预先训练的条件流匹配(CFM)模型和固定采样方法,只需2到4个步骤即可生成波形。PeriodWave-Turbo在LibriTTS数据集上获得高语音质量评估分数。通过加入重建损失和多周期多尺度判别器等技术,提高了音频质量和训练过程的稳定性。该模型为高保真波形生成提供了解决方案,并为实时音频应用带来了希望。

突破音频质量障碍:引入 PeriodWave-Turbo 实现高效波形合成

实时互动网
实时互动网 · 2024-08-20T09:46:25Z

EgoSonics是一种基于无声自我中心视频生成音频的方法,可以在虚拟现实、辅助技术等领域应用。通过条件音频合成和SyncroNet和ControlNet的结构,解决了现有工作的局限性。评估表明,该模型在音频质量和同步评估方面优于现有工作,并提高了视频摘要的应用。

EgoSonics:为无声自我中心视频生成同步音频

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码