小红花·文摘

本研究提出了一种灵活的框架，用于系统化评估基于大型语言模型的任务导向对话系统。该框架比较不同用户模拟器与对话系统的组合，分析架构、规模和提示策略对对话性能的影响，为构建高效的会话人工智能系统提供指导。

A Framework for Systematic Benchmarking of LLM-Based Task-Oriented Dialogue System Implementations

BriefGPT - AI 论文速递 ·

本研究提出了一种基于LLM的用户模拟器，旨在解决用户偏好建模不透明和模拟准确性不足的问题。该模拟器通过明确用户偏好逻辑和结合统计模型，提高了推荐系统的训练效率和效果，实验结果表明其能生成高保真的训练数据。

LLM-Based User Simulator for Recommender Systems

BriefGPT - AI 论文速递 ·

该研究旨在创建一个交互式自然语言接口，通过学习用户在模拟机器人环境中的任务，提升机器学习模型与人类的自然交互能力。研究探讨了神经语义解析系统、迭代情节反馈和大型语言模型的对齐与评估，发现这些方法能有效增强模型的泛化能力和表现。此外，研究提出了一种新型用户模拟器，以模拟人类对话行为，推动自动化任务导向对话系统的评估。

从互动中回顾学习

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在推荐系统中的应用，提出了基于LLM的用户模拟器iEvaLM以改善评估方法。研究表明，LLMs在个性化推荐和解释生成方面表现优异，能够提升用户满意度和信任。实验验证了LLMs在推荐质量和解释能力上的优势，并指出了未来研究的方向和挑战。

用户对大型语言模型与基于模板的电影推荐解释的偏好：一项初步研究

BriefGPT - AI 论文速递 ·

本研究提出了一种新的混合离线-在线强化学习方法H2O，利用有限真实数据和模拟器探索，解决了现有算法的缺陷。DASCO方法通过双生成器解决离线强化学习中的矛盾目标问题，显著提升了性能。此外，研究探讨了基于模型的离线强化学习方法PerSim及用户模拟器的应用，以提高数据效率和策略学习效果。

改进带有不准确模拟器的离线强化学习

BriefGPT - AI 论文速递 ·

本研究提出了一种基于预训练语言模型的用户模拟器，用于评估自动化任务导向对话系统。该模拟器通过上下文学习生成多样化的对话输出，表现出与人类相似的特征。研究还介绍了InstructTODS和AnyTOD等新方法，提升了对话系统的性能和用户满意度，尤其在处理未见任务和数据效率方面。

使用状态转换图和大型语言模型模拟任务导向型对话

BriefGPT - AI 论文速递 ·

本文介绍了一种基于大型语言模型的对话推荐系统（LLMCRS），重点在于理解用户偏好和对话管理。研究提出了用户模拟器iEvaLM，以改善评估协议，并通过实验验证其性能优于现有方法。同时，探讨了多智能体系统和定制化推荐系统的概念，以提升用户体验和推荐效果。

当前基于 LLM 的对话推荐用户模拟器的局限性分析

BriefGPT - AI 论文速递 ·

通过训练用户模拟器UserGPT和生成对话数据集RealChat，实验结果显示模型在Vicuna-Bench和MT-Bench中表现优于基线模型，并通过与LLaMA 2模型微调在MT-Bench中获得6.33的领先分数。方法还展示了可扩展性和可迁移性，并初步探索了训练集数据质量与模型性能之间的相互作用。

多用户聊天助手 (MUCA): 一种利用 LLMs 促进群组对话的框架

BriefGPT - AI 论文速递 ·

通过训练用户模拟器 UserGPT 和生成合成对话数据集 RealChat，实验结果显示该模型在 Vicuna-Bench 和 MT-Bench 中表现优于基线模型，手动评估结果也很竞争。通过与 LLaMA 2 模型微调，ReaLM 在 MT-Bench 中取得领先分数，展示了可扩展性和可迁移性。初步探索了训练集数据质量与模型性能之间的相互作用。

SoTaNa: 开源软件开发助手

BriefGPT - AI 论文速递 ·

本文介绍了利用大型语言模型进行对话推荐的研究，并提出了一种基于LLM的用户模拟器的交互式评估方法iEvaLM，改善了现有的评估协议。实验结果显示ChatGPT在两个公共数据集上表现出较大的优势，并强调解释性的评估。此研究有助于更深入地理解LLMs在CRSs中的潜力，并为未来的研究提供一个更灵活、易于使用的评估框架。

AgentSims：用于大型语言模型评估的开放源码沙盒

BriefGPT - AI 论文速递 ·