小红花·文摘

自动化无障碍工具如axe-core和Lighthouse在发现问题上有效，但无法替代真实用户体验。这些工具常常产生虚假警报，导致团队浪费时间。研究表明，自动化工具通常漏掉50%至70%的无障碍障碍，而LLM工具的检测率更低。真正的无障碍评估需要结合技术知识和生活经验，以确保用户体验的真实性。

大型语言模型证明无法完全自动化人类体验

8th Light Insights ·

在生产环境中，你无法预知你的代理会做什么

LangChain Blog ·

本文提出了一种新的适应性精确布尔评估框架，以提高大型语言模型在医疗领域的响应质量评估。该框架通过最小化目标性问题集，增强评估的一致性和效率，尤其在自动化评估和非专家参与方面，显著节省评估时间，促进LLMs在医疗评估中的应用。

A Scalable Framework for Evaluating Health Language Models

BriefGPT - AI 论文速递 ·

本文提出了JuDGE基准，旨在评估中国法律系统中判决文书生成的能力。通过构建全面的数据集和真实案例进行自动化评估，以提升文书生成质量。实验结果表明，尽管现有RAG方法有所改进，但仍需进一步优化。

JuDGE：评估中国法律系统判决文书生成的基准

BriefGPT - AI 论文速递 ·

Mindgard - 自动化人工智能红队评估与安全测试

DEV Community ·

本研究探讨了大语言模型生成问题的质量，提出了一种自动化评估方法，关注问题长度、类型、上下文覆盖和可回答性等维度，揭示了大语言模型生成问题的独特特征，为相关研究和应用提供了新视角。

Can Large Language Models Design Good Questions Based on Context?

BriefGPT - AI 论文速递 ·

炼石成丹：大语言模型微调实战系列（三）模型评估篇

亚马逊AWS官方博客 ·

本研究提出了一种基于SAPPhIRE因果模型的新颖性评估框架，通过比较当前问题与历史问题的文本相似度，实现自动化评估，显著提升评估效率。

使用问题SAPPhIRE概念支持设计问题的新颖性评估

BriefGPT - AI 论文速递 ·

本文研究了多模态大语言模型中的视觉-知识冲突，提出自动化流程来评估这些冲突。研究发现模型过于依赖文本，通过“关注视觉”策略（FoV），显著提升了模型处理视觉数据的能力。

洞察优于视觉？探索多模态大语言模型中的视觉-知识冲突

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在评估人工智能生成文本中的潜力，发现其评估结果与人类专家一致。研究提出了一种新数据集，帮助医学专业人员识别循证解释，并利用自动化评估方法提高临床方案的安全性。尽管LLMs在医疗应用中展现前景，但其易受敌对攻击的特性引发了安全性问题，强调了需要有效的防御机制。

基于排名而非评分：朝着可靠和稳健的自动评估LLM生成的医学解释性论证

BriefGPT - AI 论文速递 ·

AWS的RAG评估方法有助于企业降低人工智能支出

InfoWorld ·

心血管疾病是全球死亡的主要原因。研究人员提出了一种新的超声心动图视频分割模型MemSAM，成功入围CVPR2024最佳论文的候选名单。该模型使用记忆作为提示当前帧的分割，并通过记忆增强机制提高记忆质量。实验证明，该模型在少量点提示和有限注释的情况下实现了最先进的性能。此研究对于自动化评估心血管疾病具有重要意义。