小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
超越准确性:人工智能代理真正重要的五个指标

本文讨论了评估人工智能代理的五个重要指标,超越传统的准确性。这些指标包括任务完成率、工具选择准确性、自主评分、恢复率和每个成功任务的成本,旨在衡量代理的推理能力、可靠性和效率,尤其在金融和医疗等高风险领域具有重要意义。

超越准确性:人工智能代理真正重要的五个指标

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-23T11:00:24Z
为什么大多数人错误使用SMOTE,以及如何正确使用它

SMOTE是一种解决机器学习类别不平衡问题的数据增强技术,通过在少数类样本间插值生成合成样本,帮助平衡数据集。使用时需先划分训练和测试集,以防数据泄漏。常见误用包括过度平衡和忽视评估指标的上下文。

为什么大多数人错误使用SMOTE,以及如何正确使用它

KDnuggets
KDnuggets · 2026-02-11T16:21:32Z
Better Agents - 一个帮助用户评估、比较和改进AI代理的开源项目…

Better Agents是一个开源项目,旨在帮助开发者评估和比较AI代理框架。它提供多维评估指标、最佳实践和改进建议,助力工程团队在不同代理实现间做出权衡,加速构建可靠的自动化代理系统。

Better Agents - 一个帮助用户评估、比较和改进AI代理的开源项目…

云原生
云原生 · 2025-12-01T01:47:32Z
评估基于 LLM 的语音助手:超越传统指标的指南

语音助手已从简单规则系统发展为基于大语言模型的高级对话代理,具备长时对话和复杂指令执行能力。传统评估指标无法全面反映其质量,需建立新指标体系,关注事实准确性、安全性和用户体验。HHH原则强调助手应提供实用、诚实和无害的帮助,评估方法需结合人工判断与自动化工具,以确保助手的可信度和实用性。

评估基于 LLM 的语音助手:超越传统指标的指南

实时互动网
实时互动网 · 2025-11-04T06:26:01Z
评估评估指标——幻觉检测的幻影

本文探讨了语言模型中的幻觉检测评估指标,指出现有指标与人类判断不一致,且在参数扩展时表现不稳定。通过对6种幻觉检测指标的实证评估,发现LLM(如GPT-4)在评估中表现最佳,模式寻求解码方法能有效减少幻觉。这强调了需要更强大的指标和策略来理解和减轻幻觉问题。

评估评估指标——幻觉检测的幻影

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-27T00:00:00Z
RAG 简要回顾

RAG(检索增强生成)技术在2025年广泛应用,主要包括离线文件解析、文本切片和嵌入优化。通过语义和结构切分提升文本处理效率,并在查询处理时生成多维嵌入。评估指标包括召回率、响应时间和用户满意度。Graph RAG解决全局和多跳问题,但构建图谱复杂,依赖于大型语言模型(LLM)能力。Agentic RAG允许多次检索,提升灵活性和可扩展性。

RAG 简要回顾

Measure Zero
Measure Zero · 2025-10-07T00:00:00Z
模型选择对决:选择最佳模型的六个考虑因素

选择最佳机器学习模型时,应明确目标、建立基线、选择合适的评估指标,并使用交叉验证。需平衡模型复杂性与可解释性,并在真实数据上测试模型,以应对实际应用中的挑战。最终选择应与特定问题和数据相匹配。

模型选择对决:选择最佳模型的六个考虑因素

MachineLearningMastery.com
MachineLearningMastery.com · 2025-09-30T14:05:15Z
用于AI系统性能评估的大型语言模型框架

AI系统开发面临的挑战是确保其发布后持续良好表现。Microsoft.Extensions.AI.Evaluation是一个开源库,帮助收集和比较AI系统的评估指标,如一致性、流畅性和完整性。通过C#代码与OpenAI交互,评估聊天完成度,以优化系统性能。

用于AI系统性能评估的大型语言模型框架

DEV Community
DEV Community · 2025-05-27T22:19:26Z
自然语言处理评估指标

ROUGE和BLEU是文本生成评估指标。ROUGE侧重于召回率,比较生成文本与参考文本的词汇重叠,适合用于摘要;而BLEU则关注精确度,评估生成文本与参考文本的匹配程度。BERTScore通过语义相似性评估文本,强调词义而非字面匹配。

自然语言处理评估指标

DEV Community
DEV Community · 2025-05-24T03:28:37Z

本研究探讨了大语言模型在非英语环境中的应用挑战,识别了多语言工作流中的整合问题。分析指出现代神经评估指标在区分有意义评论与噪声方面的不足,并提出了26种错误类别,揭示了不同语言在连贯性、信息量和语法遵从性上的差异。

A Qualitative Study on LLM-Generated Multilingual Code Comments and Automatic Evaluation Metrics

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了两种新评估指标LCP和ROUGE-LCP,以缩小代码补全评估与用户感知之间的差距。同时,提出了一种基于结构和语义重排的代码图数据处理方法,显著提高了用户感知一致性和模型性能。

Structure-Aware Corpus Construction and User-Perception-Aligned Metrics for Large Language Model Code Completion

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z
大型语言模型是否有英语口音?评估和改善多语言大型语言模型的自然性

当前大型语言模型主要以英语为主,导致多语言输出不自然。本文提出新的自动化语料库评估指标,评估多语言环境下LLM输出的自然性,并在法语和中文中进行测试,发现英语影响的模式。为改善这一问题,提出了一种简单有效的对齐方法,提升目标语言的自然性,同时不影响通用基准的表现。

大型语言模型是否有英语口音?评估和改善多语言大型语言模型的自然性

Apple Machine Learning Research
Apple Machine Learning Research · 2025-05-16T00:00:00Z

本研究提出了一种结合关键数据嵌入的混合生成语义通信系统,解决了视觉细节缺失和评估指标不足的问题。通过语义过滤选择相关图像特征,并引入生成视觉信息保真度(GVIF)指标,实验结果表明该系统在视觉保真度上优于现有方案。

Visual Fidelity Index and Critical Data Embedding in Generative Semantic Communications

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究解决了时间序列分类的可解释性问题,提出了新的评估指标,发现简化时间序列在可解释性上优于原始数据,尤其在季节性和非平稳序列中表现更佳。

评估时间序列分类的简化算法的可解释性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出VIST-GPT模型,旨在解决传统评估指标无法有效评估视觉叙事的问题。引入新型参考无关指标RoViST和GROOVIST,以更准确地反映叙事质量。

VIST-GPT: A New Era for Visual Storytelling and Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-27T00:00:00Z
越狱税:人工智能安全与输出质量成本的权衡

研究探讨了大型语言模型越狱的隐性成本,提出了“越狱税”概念,指出绕过安全限制后输出质量下降,影响包括事实准确性、相关性和连贯性,并提出了评估越狱效果的新指标。

越狱税:人工智能安全与输出质量成本的权衡

DEV Community
DEV Community · 2025-04-21T20:07:11Z

本研究从模式连通性视角探讨机器遗忘中的损失景观与优化动态,分析不同遗忘方法及其相互关系,揭示评估指标波动模式及遗忘方法的相似性与差异,为理解机器遗忘提供新思路。

通过模式连通性理解机器遗忘

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本文提出了UniOcc,一个统一基准,用于占用预测,解决了依赖次优伪标签的问题。通过不依赖真实占用的评估指标和多样化训练数据,显著提升了自主驾驶领域的占用预测性能。

UniOcc: A Unified Benchmark for Occupancy Prediction and Forecasting in Autonomous Driving

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-31T00:00:00Z

本文综述了不可学习数据(ULD)作为新兴防御技术,分析了生成方法和评估指标,强调了可学习性、隐匿性、效率与鲁棒性之间的权衡,并指出未来研究方向及其在机器学习数据保护中的潜力。

A Review of Unlearnable Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-30T00:00:00Z
人工智能突破:新模型从长篇故事和复杂文本中生成更优质的图像

新型多模态自回归模型(MAR)能够有效生成长文本对应的图像,克服了现有模型在处理超过75字提示时的局限性。该方法保留了文本的语义,并提出了新的图像质量评估指标。

人工智能突破:新模型从长篇故事和复杂文本中生成更优质的图像

DEV Community
DEV Community · 2025-03-27T10:17:18Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码