小红花·文摘

ODKE+: 基于本体的开放领域知识提取与大型语言模型

Apple Machine Learning Research ·

本研究提出了一种逐步事实验证系统，旨在改善传统医疗声明验证方法的不足。通过在三个医疗数据集上的评估，该系统在验证医疗声明时显著提升了性能，显示出其在特定领域的高潜力。

Step-by-Step Fact Verification System for Medical Claims with Explainable Reasoning

BriefGPT - AI 论文速递 ·

本研究探讨了大语言模型生成内容的事实验证中，去语境化与分解策略的相互作用。引入DnDScore方法后，发现不同策略选择对事实性得分有显著影响，为改进长文本生成的验证过程提供了新思路。

DnDScore: Decontextualization and Decomposition for Factuality Verification in Long-Form Text Generation

BriefGPT - AI 论文速递 ·

CommunityKG-RAG：利用知识图谱中的社区结构提升事实验证中的高级RAG

DEV Community ·

研究发现，合成数据可以替代90%的人类标注数据而不影响性能，但替换最后10%会显著降低性能。仅需125个人类数据点即可提升模型性能，说明少量人类数据仍然重要。

少量人类数据能发挥巨大作用

BriefGPT - AI 论文速递 ·

本研究引入HalEval-Wild基准测试，评估大型语言模型（LLMs）在现实环境中产生幻觉的能力。通过分析用户查询和使用GPT-4模型，发现LLMs的事实性输出存在严重问题，GPT-3.5的准确率甚至不到25%。研究提出了一种新方法来检测幻觉，强调事实验证器的重要性，并探讨幻觉的来源及缓解策略，以提高LLMs的可靠性。

WildHallucinations: 用真实世界的实体查询评估 LLM 中的长篇事实准确性

BriefGPT - AI 论文速递 ·

本文介绍了一种新的零射击方法，通过将声称和证据转化为语义三元组，利用大型语言模型进行自然语言推理，提升了多个数据集上的表现。同时，提出了新的数据集FactKG和多种生成方法，以提高事实验证的可靠性和有效性。研究表明，基于生成式语言模型的知识图谱构建方法在事实核查中表现优异。

FactGenius：结合零 - shot 提示和模糊关系挖掘提高知识图谱事实验证

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLM）的不确定性，发现较大模型可能表现出更高的不确定性，且指令微调会增加这种不确定性。提出了一种新的无参考幻觉检测方法，强调不确定性在评估中的重要性。研究表明，LLM在事实验证方面表现良好，能够执行多任务语言检查，为开发可信生成模型提供了见解。

通过令牌级别不确定性量化对大型语言模型的事实核查

BriefGPT - AI 论文速递 ·

本研究提出了Iter-RetGen方法，通过检索和生成的迭代协同作用，全面处理检索到的知识，实现灵活生成，可在多跳问答、事实验证和常识推理等任务中达到优于现有基准的效果，同时减少开销，提高性能。

探索检索器和大型语言模型的整合策略

BriefGPT - AI 论文速递 ·