小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
使用DeepEval和LlamaIndex评估RAG

DeepEval是一个开源Python库,用于评估各种LLM应用,提供50多种度量标准。结合LlamaIndex框架,用户可以构建复杂的RAG管道,通过定义答案相关性、忠实度和上下文精度等度量标准,优化模型性能并进行有效评估。

使用DeepEval和LlamaIndex评估RAG

Blog on LlamaIndex
Blog on LlamaIndex · 2025-07-03T00:00:00Z

本研究探讨了人工智能影响评估中度量标准选择的合理性,特别关注伦理和社会价值的量化问题。提出了一种两步法,以明确概念并适配度量标准,从而提升评估的质量和可信度。

Measuring the Right Things: A Defense of Metrics in AI Impact Assessment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本文研究因果表示学习,提出可计算的度量标准以评估表示的非平凡性和解缠性。作者探讨了无干预情况下的可识别性,强调额外约束的重要性,并提出恢复潜在因果变量的算法,推动因果模型研究进展。

将因果表示学习与不变性原理统一

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

OpenXAI 是一个开源框架,用于评估和基准测试解释方法,包含合成数据生成器和真实数据集,提供22种度量标准以评估解释的准确性和公平性。此外,研究介绍了 AI Fairness 360 和 fairlib 等工具,旨在提高算法公平性和模型可解释性。

FairX: 使用公平性,效用性和可解释性的综合性模型分析基准工具

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

本文探讨了机器学习模型的校准问题,提出了多种度量标准以更准确地反映标定误差,并评估了常用神经网络的校准技术。研究表明,校准性能依赖于度量方法,并提出了新框架和模糊校准误差度量,以提高大型语言模型的校准能力和可靠性。

全局完善:大型语言模型上的标记级校准度量

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

本文探讨了自然语言生成的人体动作度量标准,提出的新标准与人类判断相关性更高。研究表明,现有度量标准与人类评价的相关性较低,而基于MoBERT的新标准表现优异。文章回顾了人体运动生成的背景、主流方法及未来研究方向,旨在为该领域提供全面了解并激发新思路。

建立统一的人体动作生成评估框架:指标的比较分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

本文全面概述了神经网络中的不确定性估计,包括模型和数据的不确定性。探讨了不同方法建模不确定性及其在实际应用中的挑战,提出了新度量标准,并分析了模型复杂度与不确定度的关系,验证了其有效性。

预测不确定性和多样性在体验智能和机器人学习中的作用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-06T00:00:00Z

本文探讨了人工智能方法中度量标准错误使用的负面影响,强调使用多种度量标准和定性分析以降低风险。研究指出目标规范偏见可能导致医疗决策不当,影响机器学习模型的实用性。提出了改进基准测试和量化指标框架的方法,以提高AI系统的透明度和可靠性。

人工智能中的规范过拟合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-13T00:00:00Z

本文讨论了深度学习系统测试中的漏洞和不公平性问题,并提出了使用6个度量标准进行有针对性测试的方法。实验证明该方法比传统多样性方法更有效。同时,指出了软件工程界和深度学习领域之间的差异,希望未来能够拓宽两者的研究实践。

超越准确性:开源深度学习项目中的单元测试的实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-26T00:00:00Z

本文提出了更准确的分类器标定度量标准,并对常用的神经网络结构和标定技术进行了实证评估。发现常用的标定技术在不同可靠性定义的标定误差上并未有统一的改善。

如何验证机器学习回归任务的平均校准性?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-15T00:00:00Z

本研究调查了自然语言处理研究中的“类型多样性”,发现无固定定义或标准。引入了度量标准来衡量语言选择的多样性,结果差异大。偏斜的语言选择可能导致对多语言性能的高估。建议未来研究提供清晰的操作定义,证明语言样本的多样性。

自然语言处理中的 ' 类型多样性 ' 是什么?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-06T00:00:00Z

本文提出了一种在Yelp情感数据集上实验性确定最佳实践的方法,解决了文本风格转移领域评估实践不足的问题。通过自动化评估展示了度量标准与人类判断的强关联性和一致性,并在权衡图上评估风格转移模型的重要性。

神经风格迁移的评估:综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-30T00:00:00Z

本文讨论了计算机视觉中头部姿态估计的方法、适合的表示和度量标准,以及解决训练和测试数据集不一致性的方法。同时提出了广域头部姿态估计基准。

关于宽广与短程头部姿态估计的表征和方法学

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-11T00:00:00Z

本研究综述了关于机器学习模型中偏见和不公平的研究,发现了40篇相关文章。结果显示已定义了明确的度量标准和减轻方法,建议进一步研究以确保机器学习模型的公正性。

揭示大型语言模型的公正性评估中的偏见:音乐和电影推荐系统的重要文献综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-08T00:00:00Z

该研究论文讨论了拜占庭机器学习中的关键问题,并提出了一种基于异常值鲁棒聚类的近似聚集器。该方法在度量标准上表现出优越性,为均匀和异构情况提供了近乎最优的聚集器。通过图像分类实验验证了提出的安全聚集框架的有效性。

利用 1-Center 和 1-Mean 聚类法处理带有离群值的分布式学习的近最优鲁棒聚合规则

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-20T00:00:00Z

研究展示了对抗感知错误的规划输入,通过边界攻击算法在CARLA模拟器中攻击两个不同黑盒规划器,适用于城市和高速公路驾驶场景。分析表明这些攻击在规划器的输入空间中是孤立的,对自动驾驶系统部署和测试有影响。

利用对抗感知误差攻击运动规划器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-21T00:00:00Z

该文介绍了一种新的基线技术DLLP,结合自我监督目标的新公式,在隐私设置和弱监督下进行实验,取得了比基线模型更好的结果。实验涵盖了长篇和短篇文本的大规模模型,并使用多个度量标准进行评估。

基于标签比例的文本分类学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

该文介绍了一种提高分类器预测可行性的方法,并在文本数据上进行了评估。同时,对研究所提供的度量标准进行了初步验证。

宁愿是护士也不是医生 -- 对比解释的调查研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

本文探讨了联邦学习在物联网应用中的发展,提出了度量标准和分类法,并讨论了分散联邦学习的隐私保护用例和研究挑战。

均衡取舍:工业物联网网络入侵检测的联邦迁移学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-11T00:00:00Z

本文提出了一个新任务:摘要多篇新闻文章中的多样信息,并创建了名为DiverseSumm的数据集。通过分析大型语言模型的度量标准,发现LLMs在摘要多篇新闻文章方面仍然存在挑战,主要是由于他们的覆盖范围有限。

基于 LLM 的多文档总结:利用主事件有偏单调子模函数内容提取

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码