小红花·文摘

研究人员通过收集现有论文中的指南注释和大型语言模型生成的指南注释，提出了第一个人工评估指南数据集，并介绍了八种漏洞分类和组成评估指南的原则。此外，他们还探索了使用语言模型检测指南漏洞的方法，并提供了增强人工评估可靠性的建议。