小红花·文摘 - 小红花技术领袖俱乐部

STAR-VAE：让音频潜在空间「按信息重要性」排列，重建与生成双双达到 SOTA

STAR-VAE：让音频潜在空间「按信息重要性」排列，重建与生成双双达到 SOTA

实时互动网 ·

4步出声，单卡0.24秒！Noiz AI联合港科大清华，开源音频生成大模型

量子位 ·

AI Gateway上的Grok Imagine Video 1.5

AI Gateway上的Grok Imagine Video 1.5

Vercel News ·

Cursor 对接 Fish 语音 MCP

Cursor 对接 Fish 语音 MCP

静觅 ·

突破零样本TTS音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

突破零样本TTS音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

实时互动网 ·

Runway发布了首个通用世界模型GWM-1及其变体，包括GWM Worlds、GWM Avatars和GWM Robotics，基于Gen-4.5构建。GWM Worlds支持实时环境模拟，GWM Avatars用于人类对话模拟，GWM Robotics提升机器人操作的训练效率和安全性。同时，Gen-4.5还增强了音频生成与编辑功能。

美国视频生成老炮儿，入局世界模型

量子位 ·

拍我AI V5.5发布，标志着AI视频创作的重大进步。该版本支持一键生成分镜和音频，用户可快速制作完整短片，具备叙事能力。AI根据简短提示自动生成镜头、对白和音乐，提升创作效率，降低门槛，推动短视频创作变革。

PixVerse（拍我AI）V5.5发布：国内首款分镜+音频一键生成AI视频大模型

量子位 ·

Adobe 的全家桶，现在塞满了 AI

Adobe 的全家桶，现在塞满了 AI

爱范儿 ·

Sora 2来了

Sora 2来了

OpenAI ·

微软AI推出首个自家开发的模型

微软AI推出首个自家开发的模型

The Verge ·

用 AI 生成一档播客有什么意义？

用 AI 生成一档播客有什么意义？

虹线 ·

Fal.ai如何从推理优化转向托管图像和视频模型

Fal.ai如何从推理优化转向托管图像和视频模型

The New Stack ·

用MOSS-TTSD生成相声

用MOSS-TTSD生成相声

Yunfeng's Simple Blog ·

Riffusion Audios Generation API 对接说明

Riffusion Audios Generation API 对接说明

静觅 ·

SpeakStream：交错数据的流式文本转语音

SpeakStream：交错数据的流式文本转语音

Apple Machine Learning Research ·

本研究提出音频评分蒸馏采样（Audio-SDS），旨在解决音频生成领域缺乏通用模型的问题。Audio-SDS 能够实现多种音频处理任务，如物理音效模拟和源分离，展示了蒸馏方法的广泛适用性。

音频的评分蒸馏采样：源分离、合成及其他

BriefGPT - AI 论文速递 ·

数字人克隆助手：一键打造你的 AI 分身 | 开源日报 No.585

数字人克隆助手：一键打造你的 AI 分身 | 开源日报 No.585

开源服务指南 ·

MMAudio 完整教程 — 开源AI音频生成器，用于视频 — 适用于游戏和AI视频

MMAudio 完整教程 — 开源AI音频生成器，用于视频 — 适用于游戏和AI视频

DEV Community ·

人工智能正在快速实现音频内容的自动化生成

人工智能正在快速实现音频内容的自动化生成

实时互动网 ·

本研究推出开源工具包Amphion，旨在帮助音频、音乐和语音生成初学者。该工具包引入了100K小时的多语言数据集和新模型，提升了文本转语音、音频编码和语音转换的能力，并提供多个使用教程。

Amphion工具包概述（v0.2）

BriefGPT - AI 论文速递 ·