小红花·文摘 - 小红花技术领袖俱乐部

17.3K Star！微软开源VibeVoice，AI语音合成新突破，支持90分钟多人对话和实时流式TTS

17.3K Star！微软开源VibeVoice，AI语音合成新突破，支持90分钟多人对话和实时流式TTS

dotNET跨平台 ·

服务地理空间、视觉及更多：在vLLM中实现多模态输出处理

服务地理空间、视觉及更多：在vLLM中实现多模态输出处理

vLLM Blog ·

生成式AI是一种根据用户输入生成内容的人工智能，涵盖自然语言、图像、音频和代码。它利用大语言模型进行自然语言处理，分析输入并生成独特的输出，常见应用包括文本生成、图像创作、音频合成和代码编写。

技术速递｜生成式 AI 和 LLM 工作原理

dotNET跨平台 ·

Stability AI 推出 ARC 后期训练和 Stable Audio Open Small：无蒸馏实现跨设备文本转音频生成的突破

Stability AI 推出 ARC 后期训练和 Stable Audio Open Small：无蒸馏实现跨设备文本转音频生成的突破

实时互动网 ·

本研究提出了一种新型生成对抗网络（DPN-GAN），旨在解决音频合成中的分辨率限制和模式崩溃问题。通过引入周期性偏置的ReLU激活函数和可变形卷积模块，DPN-GAN显著提高了合成音频的质量和保真度。

DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis

BriefGPT - AI 论文速递 ·

NVIDIA AI 推出 Audio-SDS：基于扩散的统一框架，无需专门数据集即可实现提示引导音频合成和源分离

NVIDIA AI 推出 Audio-SDS：基于扩散的统一框架，无需专门数据集即可实现提示引导音频合成和源分离

实时互动网 ·

构建一个开源AI的PDF转播客管道：从文本提取到语音合成

构建一个开源AI的PDF转播客管道：从文本提取到语音合成

DEV Community ·

Acoustica Mixcraft 是一款专业音频合成工具，支持多轨录音和音频、MIDI轨道创建，提供丰富的虚拟乐器和效果，适合音乐制作和视频编辑，界面友好，适用于多种音乐风格。

Acoustica Mixcraft Pro – 一款多音轨音效混合器软件

老董日志 ·

研究提出EMO框架，通过音频直接合成视频，提升说话视频的真实感和表现力，无需3D模型或面部标记，确保帧过渡平滑和身份一致。实验表明，EMO在生成逼真视频方面优于现有方法。

Hallo2：长时长和高分辨率音频驱动的人物图像动画

BriefGPT - AI 论文速递 ·

突破音频质量障碍：引入 PeriodWave-Turbo 实现高效波形合成

突破音频质量障碍：引入 PeriodWave-Turbo 实现高效波形合成

实时互动网 ·

EgoSonics是一种基于无声自我中心视频生成音频的方法，可以在虚拟现实、辅助技术等领域应用。通过条件音频合成和SyncroNet和ControlNet的结构，解决了现有工作的局限性。评估表明，该模型在音频质量和同步评估方面优于现有工作，并提高了视频摘要的应用。

EgoSonics：为无声自我中心视频生成同步音频

BriefGPT - AI 论文速递 ·