小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

音频生成技术正向端到端生成演进。美团LongCat团队推出LongCat-AudioDiT,直接在波形潜空间进行文本转语音,避免信息损失。该模型在Seed基准测试中表现优异,取得了SOTA的说话人相似度和可懂度,展现出强大的零样本语音克隆能力。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

实时互动网
实时互动网 · 2026-04-02T01:48:34Z

Runway发布了首个通用世界模型GWM-1及其变体,包括GWM Worlds、GWM Avatars和GWM Robotics,基于Gen-4.5构建。GWM Worlds支持实时环境模拟,GWM Avatars用于人类对话模拟,GWM Robotics提升机器人操作的训练效率和安全性。同时,Gen-4.5还增强了音频生成与编辑功能。

美国视频生成老炮儿,入局世界模型

量子位
量子位 · 2025-12-13T14:41:00Z

拍我AI V5.5发布,标志着AI视频创作的重大进步。该版本支持一键生成分镜和音频,用户可快速制作完整短片,具备叙事能力。AI根据简短提示自动生成镜头、对白和音乐,提升创作效率,降低门槛,推动短视频创作变革。

PixVerse(拍我AI)V5.5发布:国内首款分镜+音频一键生成AI视频大模型

量子位
量子位 · 2025-12-02T03:53:32Z
Adobe 的全家桶,现在塞满了 AI

近年来,AI在创意领域的影响显著,Adobe通过Firefly模型进行了产品升级,包括音频生成工具和AI助手。Firefly Image 5支持高达400万像素的图像生成,并优化了人像真实感。此外,Adobe推出了AI音轨和语音生成功能,以提升创作效率。未来,Adobe计划通过“月光计划”整合AI,帮助用户更好地管理创意内容。

Adobe 的全家桶,现在塞满了 AI

爱范儿
爱范儿 · 2025-10-31T06:46:06Z
Sora 2来了

Sora 2是最新的视频音频生成模型,具备更强的世界模拟能力,能更真实地遵循物理法则。它支持复杂指令,生成高质量的背景音效和角色。新社交应用的“角色”功能让用户融入生成场景,注重用户安全和健康体验。

Sora 2来了

OpenAI
OpenAI · 2025-09-30T00:00:00Z
微软AI推出首个自家开发的模型

微软发布了自家开发的AI模型MAI-Voice-1和MAI-1-preview。MAI-Voice-1能够在一秒内生成一分钟的音频,已应用于Copilot Daily等功能;MAI-1-preview则为未来Copilot的功能提供预览,专注于日常查询的响应。微软计划开发更多专用模型以满足不同用户需求。

微软AI推出首个自家开发的模型

The Verge
The Verge · 2025-08-28T21:13:04Z
用 AI 生成一档播客有什么意义?

这篇文章介绍了AI生成的播客《商业甜点》,用15分钟介绍新奇企业和商业模式。作者利用AI工具收集资料并生成音频,认为AI在信息处理上优于人类主播,内容简洁明了,满足听众好奇心。

用 AI 生成一档播客有什么意义?

虹线
虹线 · 2025-08-07T02:58:35Z
Fal.ai如何从推理优化转向托管图像和视频模型

Fal.ai是一家专注于生成媒体的平台,提供图像、视频和音频生成服务。创始人Burkay Gur与投资人Glenn Solomon讨论了公司的起源、优化模型的挑战,以及如何为开发者和非技术用户提供易用产品。尽管生成AI技术存在争议,艺术家们逐渐将其视为创作工具,从而降低了创作成本。

Fal.ai如何从推理优化转向托管图像和视频模型

The New Stack
The New Stack · 2025-07-25T15:00:05Z
Riffusion Audios Generation API 对接说明

使用Riffusion音频生成API需申请服务并登录,首次申请可获得免费额度。用户可输入文本生成歌曲,设置请求头和请求体参数(如模型、歌词、风格等)。生成后可获取音频链接和歌词信息,支持自定义生成、翻唱、续写等功能,并可通过异步回调获取结果。API会返回错误代码和信息以便处理错误。

Riffusion Audios Generation API 对接说明

静觅
静觅 · 2025-06-24T12:01:22Z
SpeakStream:交错数据的流式文本转语音

随着语音前端与大型语言模型的整合,本文提出了一种流式文本转语音(TTS)系统,能够实时生成音频,适用于对话AI等应用。实验结果显示,该系统在音质上与传统批处理TTS系统相当,同时具备流式处理能力。

SpeakStream:交错数据的流式文本转语音

Apple Machine Learning Research
Apple Machine Learning Research · 2025-05-30T00:00:00Z

本研究提出音频评分蒸馏采样(Audio-SDS),旨在解决音频生成领域缺乏通用模型的问题。Audio-SDS 能够实现多种音频处理任务,如物理音效模拟和源分离,展示了蒸馏方法的广泛适用性。

音频的评分蒸馏采样:源分离、合成及其他

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z
数字人克隆助手:一键打造你的 AI 分身 | 开源日报 No.585

HeyGem.ai 是一个开源的数字人克隆代理,支持本地部署和API服务。KrillinAI 提供简化的视频翻译和配音工具。EOS 优化能源使用,支持多平台。text-to-video-synthesis-colab 将文本转换为视频,提供多种模型和教程。soundstorm-pytorch 高效生成音频。

数字人克隆助手:一键打造你的 AI 分身 | 开源日报 No.585

开源服务指南
开源服务指南 · 2025-04-25T07:36:13Z
MMAudio 完整教程 — 开源AI音频生成器,用于视频 — 适用于游戏和AI视频

MMAudio是一个开源AI模型,能够根据视频、文本和图像生成高质量音频。教程介绍了如何在Windows上快速安装和使用该模型,支持多种GPU,适用于视频和游戏项目,实现音频与视频的完美同步。

MMAudio 完整教程 — 开源AI音频生成器,用于视频 — 适用于游戏和AI视频

DEV Community
DEV Community · 2025-03-20T01:36:08Z
人工智能正在快速实现音频内容的自动化生成

人工智能在音频内容生成领域迅速发展,谷歌、Meta和微软等公司利用生成式AI提供更灵活和真实的音频解决方案。尽管面临专业技能、数据隐私和高成本等挑战,市场预计将大幅增长,2023年全球AI语音生成器市场达36亿美元,2032年将增至106亿美元。AI技术的创新提升了音频质量和生成效率,推动了各行业的需求。

人工智能正在快速实现音频内容的自动化生成

实时互动网
实时互动网 · 2025-02-24T03:42:02Z

本研究推出开源工具包Amphion,旨在帮助音频、音乐和语音生成初学者。该工具包引入了100K小时的多语言数据集和新模型,提升了文本转语音、音频编码和语音转换的能力,并提供多个使用教程。

Amphion工具包概述(v0.2)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-26T00:00:00Z

本研究提出了一种可扩展的图像声化框架,解决了音频到图像生成模型训练中音视频配对数据稀缺的问题。该方法利用现代视觉语言模型进行数据配对,训练出的模型性能与最先进技术相当,并展现出多种听觉能力。

通过视觉组装声音进行音频到图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z
通过流匹配实现高效、高质量的文本转音频生成

新加坡科技设计大学与NVIDIA推出的TANGOFLUX模型,通过CLAP-Ranked Preference Optimization框架,显著提升了音频生成的效率和质量,超越前代,能够有效捕捉复杂细节,适用于实时应用,展现良好可扩展性。

通过流匹配实现高效、高质量的文本转音频生成

实时互动网
实时互动网 · 2025-01-02T10:44:45Z
最佳开源图像转视频模型CogVideoX1.5-5B-I2V,表现相当不错,并针对低VRAM进行了优化

CogVideoX1.5-5B-I2V是一个开源图像转视频模型,适用于低VRAM机器,支持1360px分辨率和10秒视频生成。提供安装指南、模型资源和音频生成工具,优化了VRAM使用,适合多种分辨率。

最佳开源图像转视频模型CogVideoX1.5-5B-I2V,表现相当不错,并针对低VRAM进行了优化

DEV Community
DEV Community · 2024-12-25T00:50:22Z

MAGNeT是一种新型音频生成方法,利用非自回归变换器通过遮蔽令牌预测音频,并引入再评分技术以提升音质。该方法在文本转音乐和音频生成任务中表现高效,速度比自回归方法快7倍。

NPU-HWC系统在2024年ISCSLP激励性和令人信服的音频生成挑战中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z
从音频生成逼真的情感3D虚拟人头

该研究提出了一种利用深度学习将音频特征映射到3D面部模型运动和表情参数的方法,从而实现情感丰富的3D动画人头。这项技术可广泛应用于虚拟助手、游戏和电影等领域,增强虚拟角色的互动性和自然性。

从音频生成逼真的情感3D虚拟人头

DEV Community
DEV Community · 2024-10-25T09:26:04Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码