该研究提出RePPL方法,旨在提升大型语言模型在幻觉检测中的解释能力。通过重新校准不确定性测量,提供可解释的标记级不确定性分数。实验结果显示,该方法在问答数据集上表现优异,揭示了幻觉的混乱模式,具有广泛的应用潜力。
本研究针对语音LLM在上下文推理和副语言理解方面的不足,提出了一种新框架,通过实际语音数据生成问答数据集。研究结果显示,语音LLM在同理推理任务中的局限性,强调了对相关数据集和更强模型的需求。
本研究提出HaluAgent框架,构建细粒度问答数据集C-FAITH,以解决大型语言模型生成幻觉的评估不足,提升评估效率,推动相关研究进展。
本研究提出了一个包含771,244个问答对的超声心动图报告数据集,旨在提升心脏病学问答系统的性能。通过微调大型语言模型,显著改善了问答效果,支持临床医生进行心脏鉴别诊断,减轻文档负担。
本研究推出了首个基于人类创建的长期时间序列传感器数据的问答数据集,包含5600个实际查询及其准确答案,旨在评估AI模型的表现并揭示其差距。
本研究提出ERRR框架,通过优化查询解决检索增强生成系统中的信息缺口问题。评估结果表明,ERRR在问答数据集上优于现有基准,提升了RAG系统的效用和准确性。
完成下面两步后,将自动完成登录并继续当前操作。