小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
多智能体协同办公平台,本地部署保障数据自主 | 开源日报 No.856

agentic-rag-for-dummies 是一个轻量级智能问答系统,支持对话记忆和多代理处理,提升交互自然度。它采用分层索引和模块化设计,集成 Gradio 界面,便于部署。awesome-claude 汇总了 Anthropic Claude AI 的资源,提供多语言 SDK 和云服务接入。cursor-talk-to-figma-mcp 实现了 Cursor AI 与 Figma 的双向交互和设计管理。eigent 是开源协同办公应用,支持多智能体协作,提升生产力。VoxCPM 是无分词文本到语音合成系统,专注自然语音生成。

多智能体协同办公平台,本地部署保障数据自主 | 开源日报 No.856

开源服务指南
开源服务指南 · 2026-01-20T07:35:51Z

EmoVoice模型基于大语言模型,解决了文本到语音(TTS)在情感表达控制方面的不足,实现了自然语言情感的精细控制,并通过并行输出音素和音频标记提高内容一致性,推动了情感语音合成的发展。

EmoVoice: A Freestyle Text Emotional Speech Synthesis Model Based on Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z
Deepgram 推出 Aura-2:专业且具备成本效益的企业级文本转语音模型

Deepgram推出了新一代文本到语音模型Aura-2,专为企业实时语音应用设计,提供清晰、低延迟的语音体验,支持行业术语精准发音,具备多种语音选择,优化企业沟通效率,降低成本。该平台可在云端或本地部署,确保安全性和灵活性。

Deepgram 推出 Aura-2:专业且具备成本效益的企业级文本转语音模型

实时互动网
实时互动网 · 2025-04-16T03:57:02Z

本研究提出了一种基于检索增强生成的文本到语音合成框架,强调提示选择的重要性,能够动态调整语言风格,实现更自然的交流。

Automatic Style TTS: Retrieval-Augmented Generation Based Automatic Style Matching for Text-to-Speech Synthesis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

SlimSpeech是一种轻量高效的文本到语音合成系统,基于精简整流流。该研究通过优化模型结构和蒸馏技术,显著减少了模型参数,同时保持了与大型模型相当的合成效果。

SlimSpeech: Lightweight and Efficient Text-to-Speech Synthesis Based on Slim Rectified Flow

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究针对新手内容创作者在社交媒体视频中录制语音的困难,提出了一种新方法,通过用户提供的上下文简化文本到语音(TTS)生成,并利用SpeakEasy系统进行优化。研究结果表明,使用SpeakEasy的参与者能够更有效地生成符合个人标准的语音表现。

SpeakEasy:增强文本到语音交互以促进富有表现力的内容创作

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z
Spark-TTS是什么?基于 Qwen2.5 的下一代文本转语音系统

Spark-TTS是一种基于Qwen2.5大模型的先进文本到语音系统,支持中英文合成和零样本克隆。其特点包括高效流程、可控语音生成和双语支持。使用时需准备环境、安装依赖和下载模型,可通过命令行或Web UI进行合成。常见问题如依赖冲突和克隆效果不佳,已提供解决方案。

Spark-TTS是什么?基于 Qwen2.5 的下一代文本转语音系统

文武科技柜
文武科技柜 · 2025-03-27T09:27:17Z

Ebook2Audiobook 是一款开源工具,能够将电子书转换为有声书,支持多种格式,方便用户在不同场景下使用文本到语音技术收听。

Ebook2Audiobook 一键将电子书转有声读物;CVPR 首届跨域小样本对象检测挑战赛数据集上线

HyperAI超神经
HyperAI超神经 · 2025-03-07T11:06:24Z

本研究提出了Llasa框架,解决了基于大语言模型的文本到语音系统在训练和推理阶段的计算能力扩展问题。实验结果表明,延长训练时间可以显著提升合成语音的自然性、复杂性和情感表现。

Llasa: Scaling Compute Capacity for Training and Inference Time in Llama-based Speech Synthesis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-06T00:00:00Z

本文提出了一种轻量级的多语言文本到语音(TTS)模型,旨在解决北美三种土著语言(奥吉布瓦语、米克马克语和马利西特语)语音合成系统不足的问题,强调了多语言模型在数据稀缺情况下的优势。

Development of a Multilingual Speech Synthesis System for Ojibwe, Mi'kmaq, and Maliseet Languages

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究探讨了文本到语音(TTS)系统中外部工具生成的时长依赖问题,提出了一种新的对齐器训练方法,显著提高了对齐准确性,词错误率降低了16%,优化了TTS系统的自然度和可懂度。

Alignment-Guided Training Paradigm: Enhancing Duration in Text-to-Speech Models through Alignment Guidance

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了Hard-Synth方法,利用大语言模型生成文本,并结合零样本文本到语音技术,解决了自动语音识别系统在文本数据稀缺时的标记成本问题。实验结果表明,该方法显著提升了Conformer模型的表现,降低了词错误率,提高了数据效率。

Hard-Synth:使用零样本TTS和LLM合成多样化的困难样本以增强自动语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

本研究针对文本到语音(TTS)评估中的一致性和稳健性问题,提出了改进的MUSHRA测试变体,以解决参考匹配偏差和评判模糊性。此外,研究发布了包含47,100个汉语和泰米尔语评分的MANGO数据集,旨在支持人类偏好分析和自动评估指标的开发。

Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究探讨了文本到语音系统中字母到音素转换的歧义问题,提出了一种基于大语言模型的上下文知识检索方法,显著提高了转换精度,尤其在Librig2p数据集上降低了音素错误率。

通过上下文知识检索与大语言模型改善字母到音素的转换

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

本研究提出了一种改进的自回归变换器文本到语音模型,旨在解决长序列的鲁棒性和长度泛化问题。通过引入对齐机制和相对位置信息,提升了输出的自然性和表达力。

非常关注的Tacotron:自回归变换器基础的语音合成中的鲁棒性和无界长度泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本研究提出了一种利用强大的文本到语音(TTS)模型进行自动语音识别(ASR)数据增强的方法,以解决低资源环境中ASR性能不足的问题。实验结果表明,文本多样性、说话人多样性和合成数据量对ASR性能有显著影响,尤其强调了文本多样性的重要性。

通过多功能TTS增强低资源ASR:弥合数据鸿沟

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-22T00:00:00Z

本研究提出了一种新型连续语音标记器及其文本到语音模型,克服了离散语音标记器在信息保留方面的不足。结果表明,该模型在连续性和平均意见分数上表现优异。

连续语音标记器在文本到语音中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-22T00:00:00Z

本研究提出EmoKnob框架,解决了文本到语音技术中情感选择和强度控制的问题。EmoKnob通过少量示例实现细粒度情感控制,并引入评估指标系统性评估情感合成效果。结果显示,该框架在情感表现力上优于商业TTS服务。

EmoKnob: Enhancing Voice Cloning with Fine-Grained Emotional Control

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-01T00:00:00Z

本研究通过多任务学习方法解决了传统文本到语音(TTS)管道中固定词汇覆盖的局限性,实施流程更简单。

通过多任务学习从转录语音音频中获取发音知识

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-15T00:00:00Z

研究发现,文本到语音的模型似然性对文本输入不敏感,而文本到图像的模型具有更强的表现力,但无法区分混淆提示。这一发现提供了对扩散模型似然性的新视角。

条件模型下扩散模型似然性变化的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码