小红花·文摘 - 小红花技术领袖俱乐部

Claude Code 对接 Fish 语音 MCP

Claude Code 对接 Fish 语音 MCP

静觅 ·

Cursor 对接 Fish 语音 MCP

Cursor 对接 Fish 语音 MCP

静觅 ·

Memory V重现Memorymoog，免去高昂价格和复杂烦恼

Memory V重现Memorymoog，免去高昂价格和复杂烦恼

The Verge ·

Native Instruments Komplete 26新增奇特合成器和实验钢琴音色

The Verge ·

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

美团技术团队 ·

突破零样本TTS音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

突破零样本TTS音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

实时互动网 ·

研究发现，Qwen的语音合成技术中，跨句合成的音色稳定性只能通过语音克隆实现。虽然可以通过语气指令调节音色，但无法确保跨句一致性。使用seed参数仅能在同一句话中保持一致。最终，通过生成wav文件并转换为pt文件，实现了稳定的音色，并可进行二次语气控制，效果令人满意。希望这些经验能帮助其他AI研究者。

Qwen TTS 跨句音色稳定输出技术的研究

Andy Stewart ·

Roland的TR-1000是终极鼓机

Roland的TR-1000是终极鼓机

The Verge ·

本文介绍了如何将可莉的音色和故事经历应用于智能硬件，步骤包括创建角色信息、克隆声音、配置知识库和自定义唤醒词。用户可通过聆思平台轻松与可莉互动。

实操零代码克隆原神可莉实现桌面陪伴

分享AI芯片开发经验 ·

桌面机器人逐渐成为生活中的伙伴，提供信息查询和陪伴功能。以聆思CSK6大模型开发板为例，介绍如何自定义人设、修改音色、增加技能和关联知识库，以提升机器人的智能性，满足用户需求。

零基础自定制能说会唱的AI机器人/智能语音助理

分享AI芯片开发经验 ·

本文研究了语音信号的音色及其属性检测（vTAD）。结果表明，ECAPA-TDNN编码器在已见场景中表现优异，而FACodec编码器在未见场景中具有更好的泛化能力。

语音音色属性检测的介绍

BriefGPT - AI 论文速递 ·

本研究针对声音转换中源说话者的音色信息泄露问题，提出了一种新的解决方案，即引入残差块作为内容提取器。研究证明，通过通用语义字典的内容特征重表达模块，该方法能够有效减轻音色泄露，从而显著提高目标说话者的相似度。

通过通用语义映射残差块减轻声音转换中的音色泄露

BriefGPT - AI 论文速递 ·

这些吉他建模公司如何为数字时代重现稀有的复古音色

这些吉他建模公司如何为数字时代重现稀有的复古音色

The Verge ·

解密AI的“性格密码”：从“周一（Monday）”音色提示词看提示词工程的魔力

解密AI的“性格密码”：从“周一（Monday）”音色提示词看提示词工程的魔力

宝玉的分享 ·

本文介绍了如何利用CSK6大模型开发板构建超拟人语音助手，配置语音识别、声纹识别和知识库问答功能，以实现更自然的语音交互，适用于智能客服和语音助手等场景，提升用户体验。

实操给桌面机器人加上超拟人音色

分享AI芯片开发经验 ·

本研究探讨了乐器音色形容词与声学特征之间的矛盾，构建了数据集并通过音频调整获得专家标注，揭示了形容词评分与频谱特征的相关性。

Can It Vibrate? A Data-Driven Understanding of Guitar Timbre

BriefGPT - AI 论文速递 ·

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

机器之心 ·

随着声音克隆技术的快速发展，AI已能生成逼真的语音，但仍面临零样本学习和情感控制的挑战。E2 TTS和F5 TTS通过新方法提升语音合成质量，支持多语言和情感调节。hyper.ai官网提供相关教程和数据集，助力研究与应用。

3秒实现多音色混合克隆！F5/E2 TTS教程上线；PsyDTCorpus 5k 心理对话数据集发布，精准模拟心理咨询师语言风格

HyperAI超神经 ·

本文介绍了多种基于深度学习的音乐生成和分离模型，如最大熵原理、变分自编码器和扩散模型。这些模型能够实现音乐创作、风格转换和高质量音频重建，推动了音乐生成技术的发展。

DisMix：为源级音高和音色操控解构多种音乐乐器的混合

BriefGPT - AI 论文速递 ·

CosyVoice多语言、音色和情感控制模型，one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源

刘悦 ·