本研究提出了一种评估框架,针对大型语言模型在商业智能应用中的语义幻觉和结构错误问题。通过对219个自然语言商业问题的基准评估,发现Exaone 3.5在简单任务中表现良好,但在复杂任务中显著退化,强调了验证事实一致性的必要性。
本研究提出模块化机器学习(MML),旨在解决大型语言模型在推理、事实一致性和可解释性方面的局限性。通过分解模型结构,MML增强逆事实推理能力,减少幻觉现象,促进公平、安全和透明性,推动可信赖的人工智能系统发展。
本研究提出了一种基于检索的框架,以解决大型语言模型生成幻觉输出的问题。通过将用户查询转化为逻辑表示,并利用检索增强生成(RAG)评估前提有效性,显著提高了输出的事实一致性和准确性。实验结果表明,该方法有效减少了幻觉现象。
本研究提出了一种个性化新闻标题生成框架(FPG),旨在解决事实一致性不足的问题。FPG通过评估候选新闻与历史点击新闻的相似性,平衡个性化与一致性,并利用对比学习增强标题的事实一致性。实验结果表明,FPG在个性化与事实一致性方面具有显著优势。
本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能,并提出了一种新的评估框架 LongDocFACTScore,该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。同时,在短文档数据集上与人工度量标准的事实一致性进行评估时,LongDocFACTScore 具有与最先进度量标准相当的性能。
完成下面两步后,将自动完成登录并继续当前操作。