本研究通过开发GigaVerbo语料库,解决了葡萄牙语神经文本生成资源不足的问题。新模型Tucano在多个基准测试中优于现有模型,突显了评估方法的局限性。
本文探讨了神经文本生成中的“幻觉”现象,并提出了多种减少虚假信息生成的方法,包括扩展beam搜索算法和实时检验策略。研究表明,模型的不确定性与虚假内容相关,所提解码策略能有效降低幻觉概率。此外,开发了无约束幻觉生成评估基准,以评估语言模型的表现。
本研究提出了长文本自动摘要的人工评估指南LongEval,旨在提高评估信度并减少评估者工作量。调研162篇论文发现,神经文本生成模型在生成摘要时容易产生虚假内容。研究还探索了大型语言模型在评估摘要事实一致性方面的应用,提出了新指标FFLM和FIB基准,发现现有模型在一致性评分上存在问题。最终,强调了改进评估方法的重要性,以提升摘要的可信度和准确性。
完成下面两步后,将自动完成登录并继续当前操作。