小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
AI Gateway上的Grok Imagine Video 1.5

xAI发布了Grok Imagine Video 1.5模型,该模型能够根据输入图像生成同步音频的视频。新版本提升了音频质量、提示跟随、照片真实感、面部准确性和角色一致性。用户可通过AI SDK使用此模型,结合图像模型生成动画,AI Gateway提供统一API以便调用和管理。

AI Gateway上的Grok Imagine Video 1.5

Vercel News
Vercel News · 2026-06-03T00:00:00Z
Cursor 对接 Fish 语音 MCP

Fish 语音 MCP 是一个高保真的文本转语音引擎,支持多种音色和格式。用户需获取 AceData Cloud API Token 进行配置,之后可生成音频。该服务适用于多种场景,调用时会从用户额度中扣费。

Cursor 对接 Fish 语音 MCP

静觅
静觅 · 2026-06-02T21:02:48Z
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

音频生成技术正向端到端生成演进。美团LongCat团队推出LongCat-AudioDiT,直接在波形潜空间进行文本转语音,避免信息损失。该模型在Seed基准测试中表现优异,取得了SOTA的说话人相似度和可懂度,展现出强大的零样本语音克隆能力。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

实时互动网
实时互动网 · 2026-04-02T01:48:34Z

Runway发布了首个通用世界模型GWM-1及其变体,包括GWM Worlds、GWM Avatars和GWM Robotics,基于Gen-4.5构建。GWM Worlds支持实时环境模拟,GWM Avatars用于人类对话模拟,GWM Robotics提升机器人操作的训练效率和安全性。同时,Gen-4.5还增强了音频生成与编辑功能。

美国视频生成老炮儿,入局世界模型

量子位
量子位 · 2025-12-13T14:41:00Z

拍我AI V5.5发布,标志着AI视频创作的重大进步。该版本支持一键生成分镜和音频,用户可快速制作完整短片,具备叙事能力。AI根据简短提示自动生成镜头、对白和音乐,提升创作效率,降低门槛,推动短视频创作变革。

PixVerse(拍我AI)V5.5发布:国内首款分镜+音频一键生成AI视频大模型

量子位
量子位 · 2025-12-02T03:53:32Z
Adobe 的全家桶,现在塞满了 AI

近年来,AI在创意领域的影响显著,Adobe通过Firefly模型进行了产品升级,包括音频生成工具和AI助手。Firefly Image 5支持高达400万像素的图像生成,并优化了人像真实感。此外,Adobe推出了AI音轨和语音生成功能,以提升创作效率。未来,Adobe计划通过“月光计划”整合AI,帮助用户更好地管理创意内容。

Adobe 的全家桶,现在塞满了 AI

爱范儿
爱范儿 · 2025-10-31T06:46:06Z
Sora 2来了

Sora 2是最新的视频音频生成模型,具备更强的世界模拟能力,能更真实地遵循物理法则。它支持复杂指令,生成高质量的背景音效和角色。新社交应用的“角色”功能让用户融入生成场景,注重用户安全和健康体验。

Sora 2来了

OpenAI
OpenAI · 2025-09-30T00:00:00Z
微软AI推出首个自家开发的模型

微软发布了自家开发的AI模型MAI-Voice-1和MAI-1-preview。MAI-Voice-1能够在一秒内生成一分钟的音频,已应用于Copilot Daily等功能;MAI-1-preview则为未来Copilot的功能提供预览,专注于日常查询的响应。微软计划开发更多专用模型以满足不同用户需求。

微软AI推出首个自家开发的模型

The Verge
The Verge · 2025-08-28T21:13:04Z
用 AI 生成一档播客有什么意义?

这篇文章介绍了AI生成的播客《商业甜点》,用15分钟介绍新奇企业和商业模式。作者利用AI工具收集资料并生成音频,认为AI在信息处理上优于人类主播,内容简洁明了,满足听众好奇心。

用 AI 生成一档播客有什么意义?

虹线
虹线 · 2025-08-07T02:58:35Z
Fal.ai如何从推理优化转向托管图像和视频模型

Fal.ai是一家专注于生成媒体的平台,提供图像、视频和音频生成服务。创始人Burkay Gur与投资人Glenn Solomon讨论了公司的起源、优化模型的挑战,以及如何为开发者和非技术用户提供易用产品。尽管生成AI技术存在争议,艺术家们逐渐将其视为创作工具,从而降低了创作成本。

Fal.ai如何从推理优化转向托管图像和视频模型

The New Stack
The New Stack · 2025-07-25T15:00:05Z
Riffusion Audios Generation API 对接说明

使用Riffusion音频生成API需申请服务并登录,首次申请可获得免费额度。用户可输入文本生成歌曲,设置请求头和请求体参数(如模型、歌词、风格等)。生成后可获取音频链接和歌词信息,支持自定义生成、翻唱、续写等功能,并可通过异步回调获取结果。API会返回错误代码和信息以便处理错误。

Riffusion Audios Generation API 对接说明

静觅
静觅 · 2025-06-24T12:01:22Z
SpeakStream:交错数据的流式文本转语音

随着语音前端与大型语言模型的整合,本文提出了一种流式文本转语音(TTS)系统,能够实时生成音频,适用于对话AI等应用。实验结果显示,该系统在音质上与传统批处理TTS系统相当,同时具备流式处理能力。

SpeakStream:交错数据的流式文本转语音

Apple Machine Learning Research
Apple Machine Learning Research · 2025-05-30T00:00:00Z

本研究提出音频评分蒸馏采样(Audio-SDS),旨在解决音频生成领域缺乏通用模型的问题。Audio-SDS 能够实现多种音频处理任务,如物理音效模拟和源分离,展示了蒸馏方法的广泛适用性。

音频的评分蒸馏采样:源分离、合成及其他

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z
数字人克隆助手:一键打造你的 AI 分身 | 开源日报 No.585

HeyGem.ai 是一个开源的数字人克隆代理,支持本地部署和API服务。KrillinAI 提供简化的视频翻译和配音工具。EOS 优化能源使用,支持多平台。text-to-video-synthesis-colab 将文本转换为视频,提供多种模型和教程。soundstorm-pytorch 高效生成音频。

数字人克隆助手:一键打造你的 AI 分身 | 开源日报 No.585

开源服务指南
开源服务指南 · 2025-04-25T07:36:13Z
MMAudio 完整教程 — 开源AI音频生成器,用于视频 — 适用于游戏和AI视频

MMAudio是一个开源AI模型,能够根据视频、文本和图像生成高质量音频。教程介绍了如何在Windows上快速安装和使用该模型,支持多种GPU,适用于视频和游戏项目,实现音频与视频的完美同步。

MMAudio 完整教程 — 开源AI音频生成器,用于视频 — 适用于游戏和AI视频

DEV Community
DEV Community · 2025-03-20T01:36:08Z
人工智能正在快速实现音频内容的自动化生成

人工智能在音频内容生成领域迅速发展,谷歌、Meta和微软等公司利用生成式AI提供更灵活和真实的音频解决方案。尽管面临专业技能、数据隐私和高成本等挑战,市场预计将大幅增长,2023年全球AI语音生成器市场达36亿美元,2032年将增至106亿美元。AI技术的创新提升了音频质量和生成效率,推动了各行业的需求。

人工智能正在快速实现音频内容的自动化生成

实时互动网
实时互动网 · 2025-02-24T03:42:02Z

本研究推出开源工具包Amphion,旨在帮助音频、音乐和语音生成初学者。该工具包引入了100K小时的多语言数据集和新模型,提升了文本转语音、音频编码和语音转换的能力,并提供多个使用教程。

Amphion工具包概述(v0.2)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-26T00:00:00Z

本研究提出了一种可扩展的图像声化框架,解决了音频到图像生成模型训练中音视频配对数据稀缺的问题。该方法利用现代视觉语言模型进行数据配对,训练出的模型性能与最先进技术相当,并展现出多种听觉能力。

通过视觉组装声音进行音频到图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z
通过流匹配实现高效、高质量的文本转音频生成

新加坡科技设计大学与NVIDIA推出的TANGOFLUX模型,通过CLAP-Ranked Preference Optimization框架,显著提升了音频生成的效率和质量,超越前代,能够有效捕捉复杂细节,适用于实时应用,展现良好可扩展性。

通过流匹配实现高效、高质量的文本转音频生成

实时互动网
实时互动网 · 2025-01-02T10:44:45Z
最佳开源图像转视频模型CogVideoX1.5-5B-I2V,表现相当不错,并针对低VRAM进行了优化

CogVideoX1.5-5B-I2V是一个开源图像转视频模型,适用于低VRAM机器,支持1360px分辨率和10秒视频生成。提供安装指南、模型资源和音频生成工具,优化了VRAM使用,适合多种分辨率。

最佳开源图像转视频模型CogVideoX1.5-5B-I2V,表现相当不错,并针对低VRAM进行了优化

DEV Community
DEV Community · 2024-12-25T00:50:22Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码