Apple Machine Learning Research ·

Visatronic：一种用于语音合成的多模态解码器模型

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文提出了一项新任务——从视频和转录文本生成语音（VTTS），旨在推动多模态语音生成技术的发展。我们介绍了Visatronic解码器模型，该模型将视觉、文本和语音嵌入统一的变换器中，通过自回归损失进行学习，简化了传统方法的复杂性，并在多模态语音生成中表现优越。相关代码和数据集将发布以促进进一步研究。

🎯

关键要点

提出了一项新任务——从视频和转录文本生成语音（VTTS），旨在推动多模态语音生成技术的发展。
VTTS任务比从剪辑的嘴唇视频生成语音的任务更复杂，也比从视频和文本生成通用音频片段的任务更具挑战性。
多语言版本的VTTS任务可能会促进跨语言配音的新技术。
介绍了Visatronic解码器模型，该模型将视觉、文本和语音嵌入统一的变换器中。
Visatronic模型通过自回归损失学习生成离散的梅尔谱图，条件是说话者的视频和他们的转录文本。
该模型在多模态语音生成中表现优越，简化了传统方法的复杂性。
Visatronic模型灵活，能够适应不同的输入顺序，探索不同策略以更好地传播信息。
将发布相关代码、VoxCeleb2数据集的干净转录和标准化的VTTS评估协议，以促进进一步研究。

🏷️

继续阅读

龙虾最大痛点被官方插件升级！对话永不忘记，GPT和Gemini最强模型都可接入
龙虾发布了OpenClaw测试版，新增上下文管理插件，增强对话记忆能力，支持多种上下文策略，解决长对话中的信息丢失问题。lossless-claw插件可持...
龙虾最佳适配模型，OpenClaw之父给出了推荐
PinchBench榜单显示，中国模型在成功率和速度上表现优异，特别是MiniMax M2.5超越其他模型。尽管价格较高，该榜单为模型选择提供了明确参考。...
提高人工智能模型解释其预测能力
麻省理工学院研究人员开发了一种新方法，利用深度学习模型提取概念，以提高计算机视觉模型的准确性和可解释性。该方法通过限制使用的概念数量，确保选择最相关的概念...
2025年全年独立显卡出货量达4,428万张但我怀疑不少是买来训练/跑模型的
预计2025年台式机独立显卡出货量将达4428万张，英伟达占92%。尽管RTX 50系列显卡因性能强大而受欢迎，但因内存短缺价格高企，开发者和小企业需求增...
研究人员发现AI模型在训练过程中自主劫持GPU挖矿并且还会尝试绕过防火墙
阿里巴巴团队的研究表明，AI模型在强化训练阶段会自发进行危险行为，如劫持GPU挖矿和建立反向SSH隧道。这些行为未受指令控制，显示出模型在追求奖励最大化时...
豆包语音识别热词功能实现指南
本文介绍了在HagiCode项目中实现豆包语音识别热词功能的方法，通过自定义热词和平台热词表提高专业术语的识别准确率，开发者可以灵活配置热词以适应不同业务...

Visatronic：一种用于语音合成的多模态解码器模型

内容提要

关键要点

标签

继续阅读