小红花·文摘

ZEGO 实时互动 AI Agent v2.8.5 发布，支持调整语音活动检测 VAD 灵敏度

实时互动网 ·

实时语音活动检测：兼顾精度与计算量的平衡之道

实时互动网 ·

OBS Studio 32.0 进入公开 Beta 测试，包含基本插件管理器

实时互动网 ·

实时语音活动检测系统：高性能低延迟多平台多语言 | 开源日报 No.669

开源服务指南 ·

EchoSharp是一个开源音频处理项目，旨在实现近实时音频处理，集成多种AI模型，支持语音转文本和语音活动检测。该项目仍在早期阶段，未来将增加更多功能，以提升语音识别和音频分析的质量。

语音处理开源项目 EchoSharp - 张善友

张善友 ·

本研究解决了目标说话者语音处理中的说话者嵌入评估问题。通过比较预训练说话者编码器与理想嵌入，发现一热向量比基于录音的嵌入表现更好，且最佳嵌入取决于输入混合特性。这有助于提升自动语音识别和语音活动检测的效果。

Research on Speaker Representation in Target Speaker Voice Processing

BriefGPT - AI 论文速递 ·

本研究提出了一种基于双模态循环神经网络的音视频系统，用于在嘈杂环境中进行语音活动检测，实验结果显示其检测效果优于传统深度神经网络，F1评分达到92.7%。此外，研究还探讨了机器学习在儿童虐待检测和声音事件识别等领域的应用，展示了新数据集和模型的有效性。

家中的声音：用于声音事件检测的无语音住宅音频数据集

BriefGPT - AI 论文速递 ·

本文介绍了多个说话人识别挑战的研究进展，重点在于使用卷积神经网络及新架构（如U-Net、ResNet、RepVGG）提升识别性能。研究在VoxCeleb数据集上取得显著成果，提出了创新的迁移学习方法和语音活动检测模型，并推出了新的西班牙语说话人识别数据集VoxCeleb-ESP，为该领域提供了重要基准。

VoxCeleb说话者识别挑战：回顾

BriefGPT - AI 论文速递 ·

ZEGO 实时互动 AI Agent v2.8.5 发布，支持调整语音活动检测 VAD 灵敏度

实时语音活动检测：兼顾精度与计算量的平衡之道

OBS Studio 32.0 进入公开 Beta 测试，包含基本插件管理器

实时语音活动检测系统：高性能低延迟多平台多语言 | 开源日报 No.669

语音处理 开源项目 EchoSharp - 张善友

Research on Speaker Representation in Target Speaker Voice Processing

家中的声音：用于声音事件检测的无语音住宅音频数据集

VoxCeleb说话者识别挑战：回顾

语音处理开源项目 EchoSharp - 张善友