小红花·文摘

本研究探讨了大规模语言模型（LLMs）与知识图谱（KGs）之间的元语言不一致性问题，提出了一个检测基准，以评估二者的事实性和元语言不一致性，为知识图谱构建提供新工具。初步验证已在Github发布。

A Benchmark for the Detection of Metalinguistic Inconsistencies between Large-scale Language Models and Knowledge Graphs

BriefGPT - AI 论文速递 ·

中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集，仅三个大模型达及格线

机器之心 ·

本文探讨了大语言模型生成内容的事实不准确问题，提出了一种显式工作记忆（EWE）方法，通过实时反馈提升文本生成的准确性。实验结果表明，EWE显著提高了生成内容的可靠性。

通过显式工作记忆提高事实性

BriefGPT - AI 论文速递 ·

本文介绍了一个包含860个公共示例和859个私有示例的数据集。公共数据集已发布用于评估LLM，而私有数据集则保密以防基准污染。FACTS示例涵盖多个领域，包含不同长度的文档，用户请求包括摘要、问答生成和重写任务，但不涉及创造性或复杂推理。

FACTS基础：评估大型语言模型事实性的全新基准

Google DeepMind Blog ·

本研究针对放射科报告生成中的事实正确性问题，提出了一种全新的基于语义一致性的事实性不确定性量化框架。该方法通过无需改动底层模型或访问其内部状态，作为即插即用模块与现有模型无缝集成，显著提高了自动生成报告的事实准确性，提升幅度达10%。

基于语义一致性的事实性不确定性量化在放射科报告生成中的应用

BriefGPT - AI 论文速递 ·

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

机器之心 ·

本文研究了大型语言模型在回答事实型问题时的性能，提出了新的基准和评估方法。实验证明，模型在生成答案的真实性上存在挑战，尤其是在低资源语言中。研究探讨了如何利用语言模型的知识进行事实检查，并提出了改进模型性能的建议。

衡量大型语言模型的短期事实性

BriefGPT - AI 论文速递 ·

介绍SimpleQA

OpenAI ·

本研究提出了一种图形不确定性方法，旨在解决大型语言模型在长文本生成中的虚构和不确定性问题。通过二分图表示生成与声明的关系，结果显示该方法在多个任务上提高了6.8%的AUPRC，并在事实性方面改善了2-4%。

基于图的长文本语言模型输出的不确定性度量

BriefGPT - AI 论文速递 ·

研究表明，现有的自然语言处理辟谣任务和数据集无法有效应对虚假信息。大型语言模型在事实核查中提高效率，但在高风险环境中不应作为可靠替代品。新模型显示出与人类相似的真相检测能力，并提出了新的欺骗检测框架。同时，研究发现大型语言模型易受外部错误信息影响，尤其在多轮对话中。

德国的事实性与欺骗性有多纠缠？

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在法律领域的应用，特别是隐私和偏见等法律问题。研究介绍了基于瑞士法律的NLP基准测试和开源模型ChatLaw，评估了不同LLMs在法律任务中的表现。尽管LLMs在分类任务中表现良好，但仍需改进。文章强调了LLMs在法律文本理解和案例检索中的优势与挑战，并提出未来研究方向。