小红花·文摘 - 小红花技术领袖俱乐部

基于评估指标的标签分布学习中的标注饱和度

基于评估指标的标签分布学习中的标注饱和度

Apple Machine Learning Research ·

大型语言模型评估与AI代理监控的可观测性

大型语言模型评估与AI代理监控的可观测性

The JetBrains Blog ·

超越准确性：人工智能代理真正重要的五个指标

超越准确性：人工智能代理真正重要的五个指标

MachineLearningMastery.com ·

为什么大多数人错误使用SMOTE，以及如何正确使用它

为什么大多数人错误使用SMOTE，以及如何正确使用它

KDnuggets ·

Better Agents - 一个帮助用户评估、比较和改进AI代理的开源项目…

Better Agents - 一个帮助用户评估、比较和改进AI代理的开源项目…

云原生 ·

评估基于 LLM 的语音助手：超越传统指标的指南

评估基于 LLM 的语音助手：超越传统指标的指南

实时互动网 ·

评估评估指标——幻觉检测的幻影

评估评估指标——幻觉检测的幻影

Apple Machine Learning Research ·

RAG 简要回顾

RAG 简要回顾

Measure Zero ·

模型选择对决：选择最佳模型的六个考虑因素

模型选择对决：选择最佳模型的六个考虑因素

MachineLearningMastery.com ·

用于AI系统性能评估的大型语言模型框架

用于AI系统性能评估的大型语言模型框架

DEV Community ·

自然语言处理评估指标

自然语言处理评估指标

DEV Community ·

本研究探讨了大语言模型在非英语环境中的应用挑战，识别了多语言工作流中的整合问题。分析指出现代神经评估指标在区分有意义评论与噪声方面的不足，并提出了26种错误类别，揭示了不同语言在连贯性、信息量和语法遵从性上的差异。

A Qualitative Study on LLM-Generated Multilingual Code Comments and Automatic Evaluation Metrics

BriefGPT - AI 论文速递 ·

本研究提出了两种新评估指标LCP和ROUGE-LCP，以缩小代码补全评估与用户感知之间的差距。同时，提出了一种基于结构和语义重排的代码图数据处理方法，显著提高了用户感知一致性和模型性能。

Structure-Aware Corpus Construction and User-Perception-Aligned Metrics for Large Language Model Code Completion

BriefGPT - AI 论文速递 ·

大型语言模型是否有英语口音？评估和改善多语言大型语言模型的自然性

大型语言模型是否有英语口音？评估和改善多语言大型语言模型的自然性

Apple Machine Learning Research ·

本研究提出了一种结合关键数据嵌入的混合生成语义通信系统，解决了视觉细节缺失和评估指标不足的问题。通过语义过滤选择相关图像特征，并引入生成视觉信息保真度（GVIF）指标，实验结果表明该系统在视觉保真度上优于现有方案。

Visual Fidelity Index and Critical Data Embedding in Generative Semantic Communications

BriefGPT - AI 论文速递 ·

本研究解决了时间序列分类的可解释性问题，提出了新的评估指标，发现简化时间序列在可解释性上优于原始数据，尤其在季节性和非平稳序列中表现更佳。

评估时间序列分类的简化算法的可解释性

BriefGPT - AI 论文速递 ·

本研究提出VIST-GPT模型，旨在解决传统评估指标无法有效评估视觉叙事的问题。引入新型参考无关指标RoViST和GROOVIST，以更准确地反映叙事质量。

VIST-GPT: A New Era for Visual Storytelling and Large Language Models

BriefGPT - AI 论文速递 ·

越狱税：人工智能安全与输出质量成本的权衡

越狱税：人工智能安全与输出质量成本的权衡

DEV Community ·

本研究从模式连通性视角探讨机器遗忘中的损失景观与优化动态，分析不同遗忘方法及其相互关系，揭示评估指标波动模式及遗忘方法的相似性与差异，为理解机器遗忘提供新思路。

通过模式连通性理解机器遗忘

BriefGPT - AI 论文速递 ·

本文提出了UniOcc，一个统一基准，用于占用预测，解决了依赖次优伪标签的问题。通过不依赖真实占用的评估指标和多样化训练数据，显著提升了自主驾驶领域的占用预测性能。

UniOcc: A Unified Benchmark for Occupancy Prediction and Forecasting in Autonomous Driving

BriefGPT - AI 论文速递 ·