小红花·文摘

本文介绍了利用大型语言模型进行对话推荐的研究，并提出了一种基于LLM的用户模拟器的交互式评估方法iEvaLM，改善了现有的评估协议。实验结果显示ChatGPT在两个公共数据集上表现出较大的优势，并强调解释性的评估。此研究有助于更深入地理解LLMs在CRSs中的潜力，并为未来的研究提供一个更灵活、易于使用的评估框架。