小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
仅需 3 秒音频实现「配音自由」,Mistral 开源语音大模型 Voxtral-4B-TTS-2603;多项全能!Capybara 一站式搞定图、视频生成与指令编辑

Mistral发布了Voxtral-4B-TTS-2603模型,旨在提升多语言语音生成的自然度和效率。该模型结合了语义自回归和声学流匹配,支持低延迟本地运行,展现出良好的泛化能力。

仅需 3 秒音频实现「配音自由」,Mistral 开源语音大模型 Voxtral-4B-TTS-2603;多项全能!Capybara 一站式搞定图、视频生成与指令编辑

HyperAI超神经
HyperAI超神经 · 2026-04-08T06:29:50Z
VibeVoice开源语音生成模型解析:因太强被紧急下架,加水印后免费开源

微软的VibeVoice语音生成模型因其强大功能被下架,后加水印后免费开源。该模型能够克隆声音、生成90分钟对话、实时响应,支持多语言并可本地运行。尽管有安全控制,仍需警惕深度伪造风险。VibeVoice将语音AI提升为内容生成系统,为开发者带来新机遇。

VibeVoice开源语音生成模型解析:因太强被紧急下架,加水印后免费开源

极道
极道 · 2026-03-31T00:01:00Z
MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具,克服了单一模型在复杂场景中的局限,支持高保真语音、对话和实时交互,适用于多种语言和风格切换。

MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

HyperAI超神经
HyperAI超神经 · 2026-03-06T06:01:17Z
用于语音推测解码的原则性粗粒度接受

本文介绍了一种名为“原则性粗粒度接受”(PCG)的新方法,旨在加速语音生成中的推测解码。PCG通过在声学相似性组(ASGs)层面验证提议,提高了接受率和吞吐量,同时保持了语音的可懂性和说话者相似性,为加速语音令牌生成提供了有效解决方案。

用于语音推测解码的原则性粗粒度接受

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-12T00:00:00Z
这个明星 AI 硬件在翻车被骂后,把自己「炸了」,并放了一个大招

Rabbit公司发布了第二代操作系统Rabbit OS2,针对AI硬件R1进行了全面升级。新系统采用卡片式界面,提升用户体验,并推出“Creations”平台,支持用户通过语音生成应用。尽管受到批评,Rabbit团队积极改进,获得媒体和用户认可,标志着AI硬件的新进展。

这个明星 AI 硬件在翻车被骂后,把自己「炸了」,并放了一个大招

爱范儿
爱范儿 · 2025-10-23T12:44:33Z
VoXtream:一款开源的全流式零样本文本转语音模型,支持实时应用

VoXtream技术通过实时文本处理消除了传统TTS系统的延迟,采用动态音素前瞻机制,提升了语音生成的速度和自然度。与其他系统相比,VoXtream在字错误率和实时因子上表现优异,适合实时语音代理和同声传译。

VoXtream:一款开源的全流式零样本文本转语音模型,支持实时应用

实时互动网
实时互动网 · 2025-09-24T02:35:18Z

微软开源的VibeVoice-1.5B模型在TTS领域备受关注,能够生成90分钟的高自然度语音,支持4位说话者。其创新点在于双Tokenizer架构和扩散解码技术,MOS评分达到4.5。该模型主要面向科研和开发者,目前仅支持中英文,强调研究用途以防滥用。

在线教程 | VibeVoice-1.5B独创双Tokenizer架构实现一次性生成90分钟4人对话语音,重新定义TTS技术边界

HyperAI超神经
HyperAI超神经 · 2025-09-08T08:05:25Z
Visatronic:一种用于语音合成的多模态解码器模型

本文提出了一项新任务——从视频和转录文本生成语音(VTTS),旨在推动多模态语音生成技术的发展。我们介绍了Visatronic解码器模型,该模型将视觉、文本和语音嵌入统一的变换器中,通过自回归损失进行学习,简化了传统方法的复杂性,并在多模态语音生成中表现优越。相关代码和数据集将发布以促进进一步研究。

Visatronic:一种用于语音合成的多模态解码器模型

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-14T00:00:00Z

本研究提出FMSD-TTS框架,针对藏语低资源问题,通过少量音频和方言标签生成方言语音,提升了方言表现力和说话人相似性。

FMSD-TTS: Few-Shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Generating U-Tsang, Amdo, and Kham Speech Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
从MCP到多代理:当前GitHub上最重要的10个新开源AI项目及其意义

专家分析了过去99天内的开源项目,发现多代理协作、AI工具集成和语音生成技术的进步是主要趋势。项目如Open WebUI、Unbody和OWL展示了AI领域的创新,强调了标准化集成和多代理合作的潜力。

从MCP到多代理:当前GitHub上最重要的10个新开源AI项目及其意义

The GitHub Blog
The GitHub Blog · 2025-04-30T16:00:49Z

本研究提出AlignDiT模型,解决多模态语音生成问题,能够从文本、视频和音频合成高质量语音,提高可懂性和同步性。

AlignDiT: A Multimodal Alignment Diffusion Transformer for Synchronous Speech Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

本研究提出了SOLIDO方法,利用低秩自适应技术解决语音生成模型的安全性问题,特别是模型侵权和内容滥用。该方法能够对可变长度输入进行精确水印提取,实验结果显示提取准确率最高可达99.20%。

SOLIDO: A Robust Watermarking Method for Speech Synthesis via Low-Rank Adaptation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z
推出 Amazon Nova Sonic:为生成式 AI 应用程序带来类似人类的语音对话体验

Amazon Nova Sonic 是一款集成语音理解与生成的模型,简化语音应用开发,支持低延迟对话,能够动态调整语音回复,处理多种说话风格,并具备内容审核功能,适用于客户支持等场景。

推出 Amazon Nova Sonic:为生成式 AI 应用程序带来类似人类的语音对话体验

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-04-10T03:29:37Z

本研究针对新手内容创作者在社交媒体视频中录制语音的困难,提出了一种新方法,通过用户提供的上下文简化文本到语音(TTS)生成,并利用SpeakEasy系统进行优化。研究结果表明,使用SpeakEasy的参与者能够更有效地生成符合个人标准的语音表现。

SpeakEasy:增强文本到语音交互以促进富有表现力的内容创作

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z
阿里深夜开源Qwen2.5-Omni,7B参数完成看、听、说、写

阿里通义千问团队于3月27日发布了Qwen2.5-Omni,这是一个支持文本、图像、音频和视频实时交互的多模态大模型。该模型开源,具备卓越的语音生成和多模态性能,适用于多种智能硬件,并在多项基准测试中表现优异。

阿里深夜开源Qwen2.5-Omni,7B参数完成看、听、说、写

机器之心
机器之心 · 2025-03-27T02:31:46Z
Qwen2.5 Omni: See, Hear, Talk, Write, Do It All!

Qwen2.5-Omni是一款新型多模态模型,支持文本、图像、音频和视频的实时交互,采用Thinker-Talker架构,具备优越的语音生成和指令执行能力,表现优于同类产品。目前已在多个平台上线,期待用户反馈与创新应用。

Qwen2.5 Omni: See, Hear, Talk, Write, Do It All!

Blog on Qwen
Blog on Qwen · 2025-03-26T16:00:45Z

现代文本转语音(TTS)技术,如E2和F5 TTS模型,显著提升了语音生成质量,解决了传统系统的延迟和不自然问题。E2 TTS采用简化架构,F5 TTS结合流匹配和扩散变换器,进一步优化输出。用户可以通过HuggingFace平台轻松测试和应用这些模型,生成更自然的人声对话。

现代文本转语音解决方案

KDnuggets
KDnuggets · 2025-03-20T12:00:03Z

本研究提出了ImaginTalk框架,解决了视觉引导语音生成在语义、音色和情感韵律上的一致性问题。该框架基于视觉输入生成真实语音,提升了表达力和准确性,具有影视配音和辅助失声患者的潜在应用。

Shushing! Let's Imagine the Authentic Language from Silent Videos

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本研究系统综述了离散语音标记在语音生成中的应用,提出了新的分类视角,比较了声学与语义标记的优缺点,发现其在大型语言模型中的兼容性良好,并为未来研究提供了建议。

离散语音标记的最新进展:综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

本研究提出DiTAR方法,结合语言模型与扩散变换器,有效解决了生成连续语音的计算负荷与效果问题,显著提高了生成效率,降低了计算需求,并在零样本语音生成中表现优异。

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码