小红花·文摘

LARYBench 发布：定义具身动作表征 ImageNet，首次度量从人类视频学习的泛化表征

美团技术团队 ·

文章探讨金融公司如何在架构治理中引入AI，通过统一技术栈、构建平台能力和治理AI应用，实现AI的可复用性和管理。强调可观测性和度量在AI架构治理中的重要性，以确保AI效果和价值的量化，最终延伸治理方法论至AI，保持系统的可见性和可控性。

平台工程视角下的 AI 应用架构治理

phodal ·

Gitee 企业版效能度量全面升级：构建可衡量、可洞察、可优化的研发体系

Gitee 官方博客 ·

打造智能化软件工厂：Gitee Insight 的 DevSecOps 度量实践

Gitee 官方博客 ·

整合蛋白序列/三维结构/功能特征等数据，德国团队基于度量学习构建构建人类E3泛素连接酶「全景图」

HyperAI超神经 ·

向量相似性解析：度量、算法与最佳基础设施

Redis Blog ·

我们构建的度量产品运作良好——但我们还是决定放弃并重新开始

Sentry Blog ·

谷歌推出LLM-Evalkit，以为提示工程带来秩序和度量

InfoQ ·

跟随能量，寻找路径：基于能量模型的黎曼度量

Apple Machine Learning Research ·

Brian Proffitt在CHAOSSCon演讲中探讨了开源的商业价值，强调企业应关注开源社区的健康指标与参与价值。他指出，上游开源项目与下游商业产品的关系，认为上游是价值放大器而非竞争对手。企业应通过清晰的品牌、客户反馈、成功案例和公开路线图来提升市场价值。

开源的度量指标和商业业务(演讲实录)

「开源之道」 ·

反对使用度量指标来衡量开发者生产力的案例

The New Stack ·

在使用dotTrace进行性能评测时，需要理解墙钟时间和线程时间。墙钟时间是线程的总时间，而线程时间则关注线程的实际活动时间。通过Win32 API可以获取这些时间数据，以帮助分析程序性能问题。

DotTrace系列：3. 时间度量之墙钟时间和线程时间

dotNET跨平台 ·

本文介绍了使用dotTrace进行程序性能评测时的时间度量，包括墙钟时间和线程时间。墙钟时间记录线程的实际运行时间，使用Win32 API获取；线程时间则关注线程的活动时长。理解这两者的原理有助于分析程序性能问题。

DotTrace系列：3. 时间度量之墙钟时间和线程时间 - 一线码农

一线码农 ·

本研究解决了在发展项目中进行实地数据收集面临的挑战，尤其是在数字设备不易获得的情况下。我们提出了一种基于深度学习的方法，通过OCR和OMR技术自动数字化纸质数据，并成功应用于一项旨在提高农村女性健康意识的项目，推动了近400万通电话的发送。该项目的数据、模型和代码已开源，具有重要的社会影响。

利用度量学习进行手写数字识别及其在语音通信平台推广中的应用

BriefGPT - AI 论文速递 ·

本研究解决了检索增强生成（RAG）系统评估中组件间复杂相互作用造成的挑战，导致现有基准稀缺的问题。我们提出了MIRAGE，一个专为RAG评估设计的问题回答数据集，提供了7,560个实例，并映射至37,800个条目的检索池，同时引入新评估指标以测量RAG的适应性。研究发现优化模型对齐及RAG系统内部动态提供了新见解。

MIRAGE：用于检索增强生成评估的度量密集基准

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法SyCAM，解决了现有类激活映射（CAM）在生成热图时灵活性不足的问题。SyCAM通过预定义评估度量自动生成优化的CAM表达式，提升了热图的针对性和有效性。实验结果表明，SyCAM在不同CNN模型上表现优异。

基于度量的类激活映射合成

BriefGPT - AI 论文速递 ·

本文提出了一种新颖的傅里叶切片-瓦瑟斯坦嵌入方法，能够有效地将多重集嵌入欧几里得空间，保持切片瓦瑟斯坦距离，从而改善多重集的表示效果并提升学习任务的表现。

傅里叶切片-瓦瑟斯坦嵌入用于多重集和度量

BriefGPT - AI 论文速递 ·

本研究解决了在生物医学领域机器生成图像评价中的定量评估困难问题。通过引入Tversky指数作为一种新的评估方法，作者证明了它对生成图像质量的定性评估比传统的方法更为直观，有助于在关键任务场景中进行有效的图像质量评估。

基于计数相似度度量的机器生成生物医学图像评估

BriefGPT - AI 论文速递 ·

本研究解决了基于沙普利值的责任度量在数据复杂度方面的计算难题，特别是对于非数值查询的应用。提出了一种新的责任度量家族——加权最小支持和（WSMS），该度量在概念上简单且可以有效计算，能够对大类查询提供可行的解决方案。重要的是，WSMS度量不仅满足直观属性，还能够以沙普利值的形式等同于一个适当定义的合作博弈，从而为传统方法提供了一个重要的替代方案。

重新审视沙普利：可处理的查询答案责任度量

BriefGPT - AI 论文速递 ·

本研究分析了24个面部表情识别（FER）数据集，提出了新指标，发现大规模自动收集的数据集在泛化能力上更优，并为数据集的选择和设计提供了建议，以促进FER系统的发展。

评估深度学习的人脸表情识别数据集：一种具有新颖相似度度量的基准研究

BriefGPT - AI 论文速递 ·