小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

该研究提出RePPL方法,旨在提升大型语言模型在幻觉检测中的解释能力。通过重新校准不确定性测量,提供可解释的标记级不确定性分数。实验结果显示,该方法在问答数据集上表现优异,揭示了幻觉的混乱模式,具有广泛的应用潜力。

RePPL: Recalibrating Perplexity through Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究针对语音LLM在上下文推理和副语言理解方面的不足,提出了一种新框架,通过实际语音数据生成问答数据集。研究结果显示,语音LLM在同理推理任务中的局限性,强调了对相关数据集和更强模型的需求。

Creation of Contextual Paralinguistic Data for Multi-Modal Speech LLM: Data Condensation and Spoken QA Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出HaluAgent框架,构建细粒度问答数据集C-FAITH,以解决大型语言模型生成幻觉的评估不足,提升评估效率,推动相关研究进展。

C-FAITH: An Automated Chinese Fine-Grained Benchmark for Hallucination Evaluation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出了一个包含771,244个问答对的超声心动图报告数据集,旨在提升心脏病学问答系统的性能。通过微调大型语言模型,显著改善了问答效果,支持临床医生进行心脏鉴别诊断,减轻文档负担。

EchoQA:用于超声心动图报告的庞大指令调优数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-04T00:00:00Z

本研究推出了首个基于人类创建的长期时间序列传感器数据的问答数据集,包含5600个实际查询及其准确答案,旨在评估AI模型的表现并揭示其差距。

SensorQA:日常生活监测的问答基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究提出ERRR框架,通过优化查询解决检索增强生成系统中的信息缺口问题。评估结果表明,ERRR在问答数据集上优于现有基准,提升了RAG系统的效用和准确性。

检索增强型大语言模型的参数知识精炼查询优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码