ODKE+是一个高精度的开放领域知识提取系统,能够自动从网络中提取知识。它通过模块化组件检测缺失事实、收集证据,并应用混合知识提取方法,使用大型语言模型验证提取的事实。ODKE+支持批处理和流处理,处理超过900万维基百科页面,摄取1900万个高置信度事实,精度达到98.8%。该系统显著提高了知识图谱的覆盖率,并减少了更新延迟。
本研究提出了一种逐步事实验证系统,旨在改善传统医疗声明验证方法的不足。通过在三个医疗数据集上的评估,该系统在验证医疗声明时显著提升了性能,显示出其在特定领域的高潜力。
本研究探讨了大语言模型生成内容的事实验证中,去语境化与分解策略的相互作用。引入DnDScore方法后,发现不同策略选择对事实性得分有显著影响,为改进长文本生成的验证过程提供了新思路。
本文介绍了CommunityKG-RAG模型,该模型结合了知识图谱(KG)与图基RAG,旨在提升事实验证的准确性。通过社区结构和多跳信息探索,该模型改善了信息提取和上下文理解,实验结果表明其在事实验证任务中显著优于传统方法。
研究发现,合成数据可以替代90%的人类标注数据而不影响性能,但替换最后10%会显著降低性能。仅需125个人类数据点即可提升模型性能,说明少量人类数据仍然重要。
本研究引入HalEval-Wild基准测试,评估大型语言模型(LLMs)在现实环境中产生幻觉的能力。通过分析用户查询和使用GPT-4模型,发现LLMs的事实性输出存在严重问题,GPT-3.5的准确率甚至不到25%。研究提出了一种新方法来检测幻觉,强调事实验证器的重要性,并探讨幻觉的来源及缓解策略,以提高LLMs的可靠性。
本文介绍了一种新的零射击方法,通过将声称和证据转化为语义三元组,利用大型语言模型进行自然语言推理,提升了多个数据集上的表现。同时,提出了新的数据集FactKG和多种生成方法,以提高事实验证的可靠性和有效性。研究表明,基于生成式语言模型的知识图谱构建方法在事实核查中表现优异。
本研究探讨了大型语言模型(LLM)的不确定性,发现较大模型可能表现出更高的不确定性,且指令微调会增加这种不确定性。提出了一种新的无参考幻觉检测方法,强调不确定性在评估中的重要性。研究表明,LLM在事实验证方面表现良好,能够执行多任务语言检查,为开发可信生成模型提供了见解。
本研究提出了Iter-RetGen方法,通过检索和生成的迭代协同作用,全面处理检索到的知识,实现灵活生成,可在多跳问答、事实验证和常识推理等任务中达到优于现有基准的效果,同时减少开销,提高性能。
完成下面两步后,将自动完成登录并继续当前操作。