量子位 ·

WAIC现场最“聪明”展台！AI对话眼睛耳朵能力全打开

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

在WAIC展会上，声网展示了其升级的对话式AI引擎，具备选择性注意力和视觉理解能力，能够在嘈杂环境中精准识别用户声音并实时识别图像，广泛应用于教育和智能硬件领域，提升人机交互的自然性和流畅性。

🎯

🔎

声网的选择性注意力锁定功能在嘈杂环境中表现出色，能够屏蔽95%的干扰。这一技术在教育和智能硬件领域尤为重要，确保用户指令的准确识别，提升了人机交互的流畅性和自然性。

新版对话式AI引擎的视觉理解能力使其能够实时识别图像并理解逻辑关系。这一功能在教育、设计等领域具有广泛应用潜力，能够帮助用户更好地理解复杂信息，提升学习和工作效率。

声网的数字人功能通过面部表情和肢体语言增强了对话的情感同步，使人机交互更加自然。这一特性在客户服务和教育等场景中，能够提升用户体验，增加互动的亲和力。

❓

声网的对话式AI引擎主要升级包括选择性注意力锁定功能、视觉理解能力和数字人支持。

该功能能够屏蔽95%的环境干扰，确保AI在嘈杂环境中精准识别用户的声音指令。

声网的对话式AI引擎广泛应用于教育和智能硬件等多个领域。

视觉理解能力使AI能够实时识别图像并理解其逻辑关系，增强了人机交互的自然性。

数字人功能通过面部表情和肢体语言传达更丰富的信息，使对话过程更加自然流畅。

声网的对话式AI引擎可以与主流数字人方案无缝集成，支持多种大模型的接入。

🏷️