极道 ·

VibeVoice开源语音生成模型解析：因太强被紧急下架，加水印后免费开源

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

微软的VibeVoice语音生成模型因其强大功能被下架，后加水印后免费开源。该模型能够克隆声音、生成90分钟对话、实时响应，支持多语言并可本地运行。尽管有安全控制，仍需警惕深度伪造风险。VibeVoice将语音AI提升为内容生成系统，为开发者带来新机遇。

🎯

❓

VibeVoice模型能够克隆声音、生成90分钟的多人对话、实时响应，并支持多语言和本地运行。

微软因担心VibeVoice可能被用于深度伪造和传播假信息而主动下架该模型。

VibeVoice免费且本地运行，授权宽松，相比于每月收费的服务如ElevenLabs，VibeVoice提供了更高的性价比。

VibeVoice能够一次性生成90分钟的多人对话，保持自然的对话节奏，并能模仿呼吸和停顿。

生成的音频能够自然处理多说话人对话，且声音始终在线，情绪始终到位，听起来像真实对话。

开源模型存在法律和道德风险，用户需自行承担责任，尤其是在深度伪造和滥用方面。

🏷️

杭州国家版本馆（文润阁）
杭州国家版本馆是一座综合性场馆，收藏丰富的中国古籍和文献。由普利策奖得主王澍及其妻子设计，建筑面积达10.31万平方米，外观新颖。尽管内部不能翻阅书籍，但...
本周PSC动态（219）| 2026年3月30日
我们三人参加会议，讨论了LLM生成PR带来的政策问题，核心团队需继续讨论，期间不接受此类贡献。同时，我们处理了发布阻塞问题，快速解决了一半，并标记了4个新阻塞问题。
Discord Open Sources Osprey Safety Rules Engine Processing 2.3 Million Rules per Second
Discord open-sourced Osprey, a safety rules engine processing 400 million dai...
春日杭州游
作者在春季游览杭州，记录了三天的行程，包括美食和景点。第一天在锦西湖用餐，尝试滨寿司和电竞中心；第二天参观全山石艺术中心和米其林面馆，体验繁忙交通；最后一...
From potential to performance: A snapshot of African banking
As tailwinds fade and competition intensifies, African banks can convert toda...
Who Evaluates AI’s Social Impacts? Mapping Coverage and Gaps in First and Third Party Evaluations
In this post, we review the recent paper “Who Evaluates AI’s Social Impacts? ...