小红花·文摘

emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

HyperAI超神经 ·

给 AI 语音聊天机器人定制人设和声线，用 prompt 还是微调还是声音克隆效果更好

实时互动网 ·

Maestri 是一款支持 AI Agents 协作的白板工具，适用于项目管理，用户可在画布上添加终端和标签等元素以提升效率。Hour by Hour 是一款日程管理应用，支持自然语言输入，方便用户安排日程。Voicebox 能克隆用户声音，制作播客。Haven 是多合一 SSH 工具，适合远程运维。Kaori 是香水记录应用，帮助用户管理香水信息。

派评 | 近期值得关注的 App

少数派 ·

GitHub本周十大爆火开源项目盘点：字节deer-flow与自进化智能体霸榜

极道 ·

如何在Mac上部署indexTTS2，快速语音克隆和情感控制

张洪Heo ·

李沐及其团队推出了语音大模型「Higgs Audio V2」，通过引入语音数据，提升了TTS系统的自然性和情感适应性。该模型具备多说话人对话生成和零样本声音克隆等创新功能，在情感交互方面表现突出，标志着音频AI的重大进步。

1000w小时语音数据！语音模型Higgs Audio V2情感能力跃迁；MathCaptcha10k提升验证码识别技术

HyperAI超神经 ·

如何在本地安装Nari Dia 1.6B？

DEV Community ·

本文解决了声音克隆领域术语不统一和研究方向分散的问题，提出标准化术语并探讨不同变体，旨在系统化现有算法，促进生成与检测研究，防止滥用。

声音克隆：综合研究

BriefGPT - AI 论文速递 ·

春节档电影《哪吒 2》票房突破120亿，成为中国首部票房过百亿影片，跻身全球影史前10。配音艺术引发热议，声音克隆技术迅速发展，普通人可轻松复刻角色音色。三款主流开源模型（GPT-SoVITS、Fish Speech v1.4、F5-E2 TTS）各具特色，广泛应用于影视创作和趣味配音。

在线教程丨3款声音克隆模型真实测评，GPT-SoVITS精准拿捏「石矶娘娘」特点

HyperAI超神经 ·

随着声音克隆技术的快速发展，AI已能生成逼真的语音，但仍面临零样本学习和情感控制的挑战。E2 TTS和F5 TTS通过新方法提升语音合成质量，支持多语言和情感调节。hyper.ai官网提供相关教程和数据集，助力研究与应用。

3秒实现多音色混合克隆！F5/E2 TTS教程上线；PsyDTCorpus 5k 心理对话数据集发布，精准模拟心理咨询师语言风格

HyperAI超神经 ·

国产最强语音大模型诞生，MaskGCT宣布开源，声音效果媲美人类

机器之心 ·

亚马逊允许Audible的叙述者使用AI技术克隆自己的声音

The Verge ·

韩国N号房事件再次发生，这次是Deepfake，波及超过200所学校，其中10名受害者中有3人是未成年人。Deepfake技术已经进化到了“恐怖”阶段，包括声音克隆和唇形同步技术。韩国政府计划将Deepfake犯罪的刑期从5年提高到7年。科技企业正在开发AI工具来检测Deepfake。科学研究面临Deepfake带来的挑战，需要制定道德标准和开发检测工具。