该研究提出RePPL方法,旨在提升大型语言模型在幻觉检测中的解释能力。通过重新校准不确定性测量,提供可解释的标记级不确定性分数。实验结果显示,该方法在问答数据集上表现优异,揭示了幻觉的混乱模式,具有广泛的应用潜力。
本研究针对语音LLM在上下文推理和副语言理解方面的不足,提出了一种新框架,通过实际语音数据生成问答数据集。研究结果显示,语音LLM在同理推理任务中的局限性,强调了对相关数据集和更强模型的需求。
本研究提出HaluAgent框架,构建细粒度问答数据集C-FAITH,以解决大型语言模型生成幻觉的评估不足,提升评估效率,推动相关研究进展。
本研究提出了一个包含771,244个问答对的超声心动图报告数据集,旨在提升心脏病学问答系统的性能。通过微调大型语言模型,显著改善了问答效果,支持临床医生进行心脏鉴别诊断,减轻文档负担。
本研究提出了首个基于长期传感器数据的问答数据集SensorQA,包含5600个实际查询及其准确答案,评估现有AI模型表现,揭示其与最佳问答性能的差距,呼吁更多贡献。
ConvKGYarn是一种可扩展的方法,用于生成可配置的对话知识图谱问答数据集,满足大型语言模型和对话助手的需求。该方法支持多种用户交互模式,如文本和语音,提供高质量数据,提升对话KGQA的基础,帮助评估大型语言模型的知识参数。
本文介绍了多个问答数据集的研究,包括ReviewQA、ReQA、MLQA、MSQA和TeleQnA,旨在评估大型语言模型在不同领域的能力。研究表明,LLMs在处理复杂问题时存在困难,但在一般问题上表现良好,强调了电信知识背景的重要性。数据集已公开,促进了相关研究的发展。
本文评估了九个大语言模型在中英文问答数据集上的表现,发现模型在多选题中存在顺序敏感性。研究提出了衡量模型输出一致性和置信度的方法,并指出多选题的可靠性较低。尽管模型能生成形式良好的问题提示,但干扰项未能涵盖学生常见错误。因此,建议在使用多选题评估模型前需谨慎测试其任务理解能力。
本文介绍了多个问答数据集及其研究进展,如JaQuAD、TAT-DQA和DocVQA,旨在提升非英语语言的问答任务性能。研究者们提出了新模型和方法,强调文档理解和视觉问答的重要性,推动相关领域发展。
完成下面两步后,将自动完成登录并继续当前操作。