DeepEval是一个开源Python库,用于评估各种LLM应用,提供50多种度量标准。结合LlamaIndex框架,用户可以构建复杂的RAG管道,通过定义答案相关性、忠实度和上下文精度等度量标准,优化模型性能并进行有效评估。
本研究探讨了人工智能影响评估中度量标准选择的合理性,特别关注伦理和社会价值的量化问题。提出了一种两步法,以明确概念并适配度量标准,从而提升评估的质量和可信度。
本文研究因果表示学习,提出可计算的度量标准以评估表示的非平凡性和解缠性。作者探讨了无干预情况下的可识别性,强调额外约束的重要性,并提出恢复潜在因果变量的算法,推动因果模型研究进展。
这篇文章介绍了ACES对比挑战集,用于评估翻译准确性的度量标准。测试50个度量标准发现,不同标准在不同语言现象上存在困难,基于大型语言模型的方法表现不佳。文章提出了改进机器翻译度量标准的建议。
本文介绍了ACES对比挑战集,用于评估翻译准确性的度量标准。测试了50个度量标准,发现它们在不同的语言现象上存在困难。扩展了ACES以包括错误跨度注释,并评估了基于跨度的错误度量。最后,提供了构建更好的机器翻译度量标准的建议。
本研究通过提出新的度量标准解决了稀疏神经网络(SNN)在特征选择中的关键问题,证明了SNN在特征选择中的有效性,相比密集网络,SNN在内存和计算复杂度上减少,同时特征选择质量更高。
本文介绍了MixGR,一种零样本方法,通过融合不同粒度的度量标准,改善了领域特定的检索和复杂的查询-文档关系,提高了稠密检索器的匹配。实验证明,MixGR在多个科学检索数据集上相比以往的方法在nDCG@5上分别提高了24.7%和9.8%。同时,MixGR在科学领域的下游科学问答任务中也展现了优势。
研究提出了一种新的评估框架,使用大型语言模型评估医学成像报告。通过与医生评估结果对比,提出了一种性能接近GPT-4的度量标准。利用语言模型评估结果构建数据集,进行知识蒸馏,训练出较小的模型,其评估能力与GPT-4相当。该方法为医学成像报告生成提供了易于使用和高效的评估方法,促进了更具临床相关性的模型的开发。该模型将进一步开源和提供可访问性。
该研究介绍了一种名为RaTEScore的新型度量标准,用于评估人工智能模型生成的医学报告质量。RaTEScore强调诊断结果和解剖细节等重要医学实体,并对医学近义词和否定表达式具有鲁棒性。该度量标准通过比较实体嵌入的相似性来衡量,根据类型和临床重要性相关性进行评估。RaTEScore在公开基准和新提出的RaTE-Eval基准上得到了验证。
本文提出了一种基于注意力机制的体系结构来模拟未修剪视频中动作类之间的关系,并通过分支建模依赖性,提出了新的度量标准,并在数据集上展示了更好的性能。
研究提出了一种新的评估框架,使用大型语言模型对医学成像报告进行评估。通过与放射科医生评估结果对比,提出了一种性能接近GPT-4的度量标准。利用语言模型评估结果构建数据集,进行了知识蒸馏以训练较小的模型,该模型的评估能力与GPT-4相当。该方法提供了一种易于使用和高效的评估方法,促进了更具临床相关性的模型的开发。
研究提出了一种新的评估框架,使用大型语言模型评估医学成像报告。通过与放射科医生评估结果对比,提出了一种性能接近GPT-4的度量标准。利用语言模型评估结果构建数据集,进行了知识蒸馏以训练较小的模型,该模型的评估能力与GPT-4相当。该方法提供了一种易于使用和高效的评估方法,促进了更具临床相关性的模型的开发。
本文研究了评估深度神经网络不确定性的度量标准,包括校准误差、Spearman排名相关性和负对数似然度量。结果表明,校准误差是最稳定和可解释性的度量标准,建议使用AUSE替代Spearman排名相关性。
本文提出了两个度量标准(skew和stereotype)来分析上下文语言模型在WinoBias代词消解任务中的性别偏见,并提出了两种减少偏见的方法。
该研究提出了一种新的度量标准,用于评估无图像参考的标题文本的具体性和相关性。该方法利用强基模型衡量多模态表示中的视觉-语义信息损失,并证明与人类对文本具体性的评估相关。同时,使用该度量标准进行筛选可以选择高质量的样本,以进行高效训练。
本文提出了一种新的度量标准,通过研究自监督学习模型在跨语言环境中提取的特征,预测特征表示的质量。结果表明,对比损失有助于更有效的跨语言特征提取。
ACM FAccT最近发表的一篇关于使用AUC ROC进行预测分析的文章存在技术性错误,重新定义了问题并讨论了如何在考虑这些问题的基础上继续使用AUC ROC。文章提出了多种度量标准的联合使用,并强调不应仅仅依赖AUC ROC。
本文研究了与人类评价相关的度量标准,并提出了新的度量标准MoBERT。通过人类评价发现,目前用于此任务的度量标准与人类判断相关性较低,而常用的度量标准和坐标误差与人类判断相关性较高。不推荐使用一些最近开发的度量标准。结果显示,MoBERT在样本级别和模型级别上与人类判断相关性高,优于当前所有替代方案。
本文提出了一种低成本的实体解析框架,通过用户反馈信号生成特征,测量实体解析性能,并引入一组度量标准来评估ER系统的表现。度量标准可深入挖掘和识别ER问题的根本原因。
本研究使用大型语言模型(LLMs)进行多意图口语语言理解(SLU)研究,提出了一种独特的方法,通过重构实体槽位和引入子意图指令(SII)的概念,增强了对复杂多意图通信的解析和解释。研究结果显示,LLMs能够超越当前最先进的多意图SLU模型。同时,还介绍了两个度量标准,实体槽位准确度(ESA)和综合语义准确度(CSA),以评估LLMs在该领域的熟练程度。
完成下面两步后,将自动完成登录并继续当前操作。