小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种灵活的框架,用于系统化评估基于大型语言模型的任务导向对话系统。该框架比较不同用户模拟器与对话系统的组合,分析架构、规模和提示策略对对话性能的影响,为构建高效的会话人工智能系统提供指导。

A Framework for Systematic Benchmarking of LLM-Based Task-Oriented Dialogue System Implementations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了一种基于LLM的用户模拟器,旨在解决用户偏好建模不透明和模拟准确性不足的问题。该模拟器通过明确用户偏好逻辑和结合统计模型,提高了推荐系统的训练效率和效果,实验结果表明其能生成高保真的训练数据。

LLM-Based User Simulator for Recommender Systems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-22T00:00:00Z

该研究旨在创建一个交互式自然语言接口,通过学习用户在模拟机器人环境中的任务,提升机器学习模型与人类的自然交互能力。研究探讨了神经语义解析系统、迭代情节反馈和大型语言模型的对齐与评估,发现这些方法能有效增强模型的泛化能力和表现。此外,研究提出了一种新型用户模拟器,以模拟人类对话行为,推动自动化任务导向对话系统的评估。

从互动中回顾学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本文探讨了大型语言模型(LLMs)在推荐系统中的应用,提出了基于LLM的用户模拟器iEvaLM以改善评估方法。研究表明,LLMs在个性化推荐和解释生成方面表现优异,能够提升用户满意度和信任。实验验证了LLMs在推荐质量和解释能力上的优势,并指出了未来研究的方向和挑战。

用户对大型语言模型与基于模板的电影推荐解释的偏好:一项初步研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z

本研究提出了一种新的混合离线-在线强化学习方法H2O,利用有限真实数据和模拟器探索,解决了现有算法的缺陷。DASCO方法通过双生成器解决离线强化学习中的矛盾目标问题,显著提升了性能。此外,研究探讨了基于模型的离线强化学习方法PerSim及用户模拟器的应用,以提高数据效率和策略学习效果。

改进带有不准确模拟器的离线强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-07T00:00:00Z

本研究提出了一种基于预训练语言模型的用户模拟器,用于评估自动化任务导向对话系统。该模拟器通过上下文学习生成多样化的对话输出,表现出与人类相似的特征。研究还介绍了InstructTODS和AnyTOD等新方法,提升了对话系统的性能和用户满意度,尤其在处理未见任务和数据效率方面。

使用状态转换图和大型语言模型模拟任务导向型对话

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-23T00:00:00Z

本文介绍了一种基于大型语言模型的对话推荐系统(LLMCRS),重点在于理解用户偏好和对话管理。研究提出了用户模拟器iEvaLM,以改善评估协议,并通过实验验证其性能优于现有方法。同时,探讨了多智能体系统和定制化推荐系统的概念,以提升用户体验和推荐效果。

当前基于 LLM 的对话推荐用户模拟器的局限性分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-25T00:00:00Z

通过训练用户模拟器UserGPT和生成对话数据集RealChat,实验结果显示模型在Vicuna-Bench和MT-Bench中表现优于基线模型,并通过与LLaMA 2模型微调在MT-Bench中获得6.33的领先分数。方法还展示了可扩展性和可迁移性,并初步探索了训练集数据质量与模型性能之间的相互作用。

多用户聊天助手 (MUCA): 一种利用 LLMs 促进群组对话的框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-10T00:00:00Z

通过训练用户模拟器 UserGPT 和生成合成对话数据集 RealChat,实验结果显示该模型在 Vicuna-Bench 和 MT-Bench 中表现优于基线模型,手动评估结果也很竞争。通过与 LLaMA 2 模型微调,ReaLM 在 MT-Bench 中取得领先分数,展示了可扩展性和可迁移性。初步探索了训练集数据质量与模型性能之间的相互作用。

SoTaNa: 开源软件开发助手

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-25T00:00:00Z

本文介绍了利用大型语言模型进行对话推荐的研究,并提出了一种基于LLM的用户模拟器的交互式评估方法iEvaLM,改善了现有的评估协议。实验结果显示ChatGPT在两个公共数据集上表现出较大的优势,并强调解释性的评估。此研究有助于更深入地理解LLMs在CRSs中的潜力,并为未来的研究提供一个更灵活、易于使用的评估框架。

AgentSims:用于大型语言模型评估的开放源码沙盒

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-08T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码