大语言模型的自导图灵测试
原文中文,约300字,阅读约需1分钟。发表于: 。本研究旨在解决传统图灵测试无法有效评估大语言模型在复杂对话中的表现问题。论文提出自导图灵测试,通过引入更灵活的对话格式,使大语言模型能够自我引导对话过程,从而减轻人类的参与负担。研究发现,尽管大语言模型在初期表现良好,但随着对话的深入,其保持一致性的能力显著下降,这揭示了评估其人类类行为的挑战。
该文章介绍了一种机器-人类管道,通过使用基于LLM的代理体系结构和将对话与人物和时间事件图进行关联,生成高质量的非常长期的对话。作者通过人类注释者对对话进行检验和编辑,以确保其长程一致性和对事件图的关联。实验结果表明,LLM在理解冗长对话和理解对话中的长程时间和因果动态方面存在挑战。使用长上下文LLM或RAG等策略可以提供改进,但这些模型仍然远远落后于人类的性能。