实时互动网 ·

突破零样本TTS音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

音频生成技术正向端到端生成演进。美团LongCat团队推出LongCat-AudioDiT，直接在波形潜空间进行文本转语音，避免信息损失。该模型在Seed基准测试中表现优异，取得了SOTA的说话人相似度和可懂度，展现出强大的零样本语音克隆能力。

🎯

❓

LongCat-AudioDiT模型的主要创新在于直接在波形潜空间进行文本转语音，避免了传统方法中的信息损失和误差累积。

LongCat-AudioDiT在Seed基准测试中取得了SOTA的说话人相似度和可懂度，表现优异。

Wav-VAE作为压缩器，将原始波形压缩为紧凑的隐向量，保持音频质量并提高训练稳定性。

APG通过精准筛选引导信号，保留有益部分并抑制劣化部分，从而提升生成语音的自然度和音质。

LongCat-AudioDiT通过双重约束对齐机制，确保提示区域的隐变量与训练分布对齐，从而修复了训练-推理不匹配问题。

LongCat-AudioDiT在零样本语音克隆任务中展现出强大的竞争力，取得了高说话人相似度和可懂度。

🏷️

26North 将收购云通信公司 Intermedia
26North Partners LP宣布收购全球AI驱动的云通信解决方案提供商Intermedia Intelligent Communications...
苹果向更多设备开放iOS 18.7.7版更新用于抵御DarkSword漏洞利用工具包
苹果发布iOS 18.7.7安全更新，以修复广泛传播的DarkSword漏洞。多个黑客团体已利用该漏洞攻击iPhone和iPad，建议用户立即升级。该更新...
Wayland 协议 1.48 发布，新增 XDG 会话管理功能
Wayland Protocols 1.48 正式发布，新增 XDG 会话管理协议，支持客户端恢复窗口设置，提升 Linux 桌面体验。同时更新文本输入协...
微软展示Windows 11顶部/底部/左侧/右侧任务栏可能很快就会测试发布
微软工程师展示了Windows 11的新任务栏位置选项，用户可以将其放置在顶部、左侧或右侧。此前微软曾表示此功能不重要，导致用户不满。演示视频已被删除，但...
喜报！谷歌宣布AI Pro订阅存储空间从2TB免费增加到5TB
谷歌宣布Google AI Pro订阅用户的存储空间从2TB扩展至5TB，适用于所有用户。更新自动完成，用户可在Google Drive等应用中查看。此外...
450+ AI Skills for Medical Research: Comprehensive Coverage from Literature Retrieval to SCI Submission
本文介绍了通过运行一条命令安装OpenClaw，命令使用curl从GitHub获取并执行脚本。