适用于对话的不同技术方法评估:微调还是 RAG?
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种机器-人类管道,通过使用基于LLM的代理体系结构和将对话与人物和时间事件图进行关联,生成高质量的非常长期的对话。实验结果表明,LLM在理解冗长对话和理解对话中的长程时间和因果动态方面存在挑战。
🎯
关键要点
- 介绍了一种机器-人类管道,使用基于LLM的代理体系结构。
- 将对话与人物和时间事件图进行关联,以生成高质量的长期对话。
- 通过人类注释者对生成的对话进行检验和编辑,确保长程一致性。
- 收集了一个包含300个回合和平均9K个记号的长期对话数据集。
- 提出了一个评估基准,衡量模型中的长期记忆。
- 实验结果显示,LLM在理解冗长对话和长程时间及因果动态方面存在挑战。
- 使用长上下文LLM或RAG等策略可以提供改进,但仍然落后于人类性能。
➡️