机器之心 ·

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

清华大学、人民大学和腾讯联合团队提出了一种新的智能体交互设计方案，通过引入Intention-in-Interaction（IN3）基准测试来评估智能体的交互能力。他们使用Mistral-7B框架和基于IN3训练的Mistral-Interact模型，能够识别模糊用户任务、恢复关键缺失信息、设定精确的智能体执行目标，并减少冗余工具使用。该方案填补了智能体与用户交互的空白，将人类置于智能体设计的中心。

🎯

关键要点

清华大学、人民大学和腾讯联合团队提出了一种新的智能体交互设计方案。
引入Intention-in-Interaction（IN3）基准测试来评估智能体的交互能力。
Mistral-Interact模型能够识别模糊用户任务、恢复缺失信息、设定执行目标。
该方案填补了智能体与用户交互的空白，将人类置于智能体设计的中心。
传统智能体对明确命令反应迅速，但对复杂隐式意图理解不足。
新一代智能体需要以人为中心，关注自然流畅的沟通方式。
Mistral-Interact模型在模糊任务识别和信息恢复方面表现突出。
IN3基准测试通过任务模糊性判断和用户意图理解评测智能体能力。
Mistral-Interact在用户意图理解和任务执行方面的表现优于其他模型。
案例分析显示Mistral-Interact在不同对话场景下的鲁棒性。
智能体设计革命将使智能体成为理解人类需求的伙伴。

❓

延伸问答

什么是Intention-in-Interaction（IN3）基准测试？

IN3基准测试是一种评估智能体交互能力的新方法，旨在通过判断任务模糊性和理解用户意图来评测智能体的能力。

Mistral-Interact模型的主要功能是什么？

Mistral-Interact模型能够识别模糊用户任务、恢复缺失信息、设定精确的执行目标，并减少冗余工具使用。

传统智能体在理解用户意图方面存在哪些不足？

传统智能体对明确命令反应迅速，但在理解复杂的隐式意图上表现不足，难以捕捉用户的真实需求。

Mistral-Interact模型如何改善用户与智能体的交互？

Mistral-Interact通过主动评估任务模糊性和询问用户意图，使得智能体能够更好地理解和响应用户需求。

该研究的团队由哪些机构组成？

该研究团队由清华大学、人民大学和腾讯联合组成。

Mistral-Interact模型在任务执行方面的表现如何？

Mistral-Interact在任务执行中能够避免设定不必要的目标，使执行过程更符合用户意图，并减少工具调用。

🏷️