微软发布 VibeVoice-ASR：一种统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频

实时互动网 ·

微软发布 VibeVoice-ASR：一种统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

微软推出了VibeVoice-ASR，一个开源的语音转文本模型，支持最长60分钟的音频处理，输出结构化文本，包括“谁”、“何时”、“什么”。该模型允许用户自定义热词，以提高识别准确性，适合会议记录和长时间通话。

🎯

关键要点

微软推出了VibeVoice-ASR，一个开源的语音转文本模型。
该模型支持最长60分钟的音频处理，输出结构化文本，包括“谁”、“何时”、“什么”。
VibeVoice-ASR允许用户自定义热词，以提高识别准确性，适合会议记录和长时间通话。
模型在64K标记长度预算内接收长达60分钟的连续音频输入，保持说话人身份和主题上下文。
自定义热词功能使用户能够针对特定领域调整识别过程，无需重新训练模型。
模型联合执行自动语音识别、人声分割和时间戳功能，返回结构化输出。
使用DER、cpWER和tcpWER评估模型在多说话人长篇数据上的表现。
VibeVoice-ASR在VibeVoice开源堆栈中以MIT许可证发布，附带官方权重和微调脚本。

🏷️

继续阅读

Google Stax：根据您自己的标准测试模型和提示
Google的Stax工具允许个人创建和评估机器学习模型，通常与TensorFlow或Vertex AI协作，专注于模型性能评估。
微软发布MCP C# SDK 1.0，全面支持最新协议规范
微软团队发布MCP C# SDK 1.0，支持2025-11-25的MCP规范。新功能包括增强的授权服务器发现、图标支持、增量范围同意和URL模式引导，简...
龙虾最大痛点被官方插件升级！对话永不忘记，GPT和Gemini最强模型都可接入
龙虾发布了OpenClaw测试版，新增上下文管理插件，增强对话记忆能力，支持多种上下文策略，解决长对话中的信息丢失问题。lossless-claw插件可持...
龙虾最佳适配模型，OpenClaw之父给出了推荐
PinchBench榜单显示，中国模型在成功率和速度上表现优异，特别是MiniMax M2.5超越其他模型。尽管价格较高，该榜单为模型选择提供了明确参考。...
提高人工智能模型解释其预测能力
麻省理工学院研究人员开发了一种新方法，利用深度学习模型提取概念，以提高计算机视觉模型的准确性和可解释性。该方法通过限制使用的概念数量，确保选择最相关的概念...
本地Qwen+云模型：OpenClaw真实体验
OpenClaw近期受到关注，吸引用户尝试，但功能被认为有限。作者分享了两个实用场景：自动化博客发布和定时数据抓取工具。国产模型在复杂任务上与Claude...

微软发布 VibeVoice-ASR：一种统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频

内容提要

关键要点

标签

继续阅读