小红花·文摘

本研究开发了Voila语音AI代理，能够实时与人类进行情感交互，填补传统系统的不足。Voila采用端到端架构，实现195毫秒的低延迟响应，提升了对话的自然性和个性化，对未来人机交互具有重要意义。

BriefGPT - AI 论文速递 ·

本文介绍了一种名为Voila-A的视觉-语言模型（VLMs），通过目光对齐提升模型的可解释性和效果。研究还提出了基于注视的视觉问答数据集GazeVQA，并利用注视目标估计提高任务准确性。此外，论文探讨了结合大型语言模型的对话管理器，增强了对话代理的视觉能力，展望了更丰富的用户交互体验。

BriefGPT - AI 论文速递 ·