小红花·文摘

在新的人工智能时代，用户越来越依赖大型语言模型（LLM）完成复杂任务。然而，研究表明，LLM在处理文档时可能会损坏内容。研究者建立了“DELEGATE-52”评估框架，测试了19种LLM，发现即使是最先进的模型，在20次交互后也会损坏25%的原始内容。造成这种现象的原因包括错误累积、模型类型差异、上下文过载和领域熟悉度不足。因此，在使用LLM作为文档编辑工具时需谨慎。