ZEGO 实时互动 AI Agent v2.8.5 发布,支持调整语音活动检测 VAD 灵敏度

ZEGO 实时互动 AI Agent v2.8.5 发布,支持调整语音活动检测 VAD 灵敏度

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

即构科技发布实时互动AI Agent v2.8.5版本,新增语音活动检测(VAD)灵敏度调整功能,支持低、中、高三种模式及自定义参数,以优化语音识别和打断灵敏度。

🎯

关键要点

  • 即构科技发布实时互动AI Agent v2.8.5版本,新增语音活动检测(VAD)灵敏度调整功能。
  • VAD灵敏度功能用于判断用户是否开始说话,从而触发语音识别。
  • 支持低、中、高三种模式及自定义参数,以优化语音识别和打断灵敏度。
  • 主要通过说话音量阈值和有效语音时间长短来判断用户是否开始说话。
  • 合理调节参数可以防止轻声表示赞同或思考的声音被误识别。
  • 提供三种打断灵敏度等级,分别对应不同的参数值和效果。
  • 自定义模式允许用户更精细地调整灵敏度参数以满足业务需求。

延伸问答

ZEGO 实时互动 AI Agent v2.8.5 版本新增了什么功能?

新增了语音活动检测(VAD)灵敏度调整功能。

语音活动检测(VAD)灵敏度调整功能的作用是什么?

用于判断用户是否开始说话,从而触发语音识别和判断是否打断 AI 说话。

VAD 灵敏度调整支持哪些模式?

支持低、中、高三种模式及自定义参数。

如何合理调节 VAD 参数以优化语音识别?

通过调整说话音量阈值和有效语音时间长短来判断用户是否开始说话。

自定义模式下,如何设置 VAD 的灵敏度参数?

需配合 VADMinSpeechDur 和 VADEnergyThreshold 使用,设置 VADdSensitiveLevel 为 3。

不同灵敏度等级对语音识别的影响是什么?

低灵敏度适合过滤无意义短词,高灵敏度则能更好地识别有意义短词。

➡️

继续阅读