小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

自动化无障碍工具如axe-core和Lighthouse在发现问题上有效,但无法替代真实用户体验。这些工具常常产生虚假警报,导致团队浪费时间。研究表明,自动化工具通常漏掉50%至70%的无障碍障碍,而LLM工具的检测率更低。真正的无障碍评估需要结合技术知识和生活经验,以确保用户体验的真实性。

大型语言模型证明无法完全自动化人类体验

8th Light Insights
8th Light Insights · 2026-04-15T13:44:00Z
在生产环境中,你无法预知你的代理会做什么

传统软件监控与代理不同,代理能够处理自然语言输入,具备无限输入空间和非确定性行为。监控代理需关注用户交互的完整性、多轮上下文及决策过程。有效的监控工具应支持自动化评估与人类审查,以应对生产环境中的复杂性与规模挑战。

在生产环境中,你无法预知你的代理会做什么

LangChain Blog
LangChain Blog · 2026-02-26T04:28:00Z

本文提出了一种新的适应性精确布尔评估框架,以提高大型语言模型在医疗领域的响应质量评估。该框架通过最小化目标性问题集,增强评估的一致性和效率,尤其在自动化评估和非专家参与方面,显著节省评估时间,促进LLMs在医疗评估中的应用。

可扩展的健康语言模型评估框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-30T00:00:00Z

本文提出了JuDGE基准,旨在评估中国法律系统中判决文书生成的能力。通过构建全面的数据集和真实案例进行自动化评估,以提升文书生成质量。实验结果表明,尽管现有RAG方法有所改进,但仍需进一步优化。

JuDGE:评估中国法律系统判决文书生成的基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z
Mindgard - 自动化人工智能红队评估与安全测试

Mindgard是人工智能安全测试的领导者,提供动态应用安全测试(DAST-AI)解决方案,帮助组织保护AI系统免受新威胁,实现持续安全测试和自动化红队评估。

Mindgard - 自动化人工智能红队评估与安全测试

DEV Community
DEV Community · 2025-03-11T16:35:49Z

本研究提出了一种系统化的自动化评估方法,评估大语言模型生成问题的质量,关注问题的长度、类型、上下文覆盖和可回答性,为相关研究提供新视角。

大语言模型能根据上下文设计出好问题吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-07T00:00:00Z
炼石成丹:大语言模型微调实战系列(三)模型评估篇

随着生成式AI技术的发展,大语言模型(LLM)的评估变得愈发重要。评估方式包括人工和自动,后者提高了效率并降低了成本。本文介绍了一种基于亚马逊云科技的自动化评估方案,涵盖数据输入、执行和结果处理,支持多维度分析。评估结果显示,Claude Sonnet 3.5在准确性和稳定性上优于Llama 3.2,为企业提供了可靠的模型选择依据。

炼石成丹:大语言模型微调实战系列(三)模型评估篇

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2024-12-23T03:03:57Z

本研究提出了一种基于SAPPhIRE因果模型的新颖性评估框架,通过比较当前问题与历史问题的文本相似度,实现自动化评估,显著提升评估效率。

使用问题SAPPhIRE概念支持设计问题的新颖性评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

本文研究了多模态大语言模型中的视觉-知识冲突,提出自动化流程来评估这些冲突。研究发现模型过于依赖文本,通过“关注视觉”策略(FoV),显著提升了模型处理视觉数据的能力。

洞察优于视觉?探索多模态大语言模型中的视觉-知识冲突

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本研究探讨了内镜视频中溃疡性结肠炎严重性评估的自动化问题。传统方法耗时且评审者间差异大。提出的Arges框架利用时空变换器结合帧特征信息,提高了UC严重性评分的准确性,MES评分提升了4.1%。

Arges:内镜视频中溃疡性结肠炎严重性评估的时空变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-01T00:00:00Z

本研究通过分析对话文本自动化评估CEFR B2口语,解决了依赖人工评估口语考试的可扩展性挑战。研究建立了合成对话数据集,并开发了高效模型,评估准确性达到96%,展示了在语言能力评估中的应用潜力。

EvalYaks:用于自动评分 CEFR B2 口语评估文本的指令调优数据集和 LoRA 微调模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

心血管疾病是全球死亡的主要原因。研究人员提出了一种新的超声心动图视频分割模型MemSAM,成功入围CVPR2024最佳论文的候选名单。该模型使用记忆作为提示当前帧的分割,并通过记忆增强机制提高记忆质量。实验证明,该模型在少量点提示和有限注释的情况下实现了最先进的性能。此研究对于自动化评估心血管疾病具有重要意义。

候选CVPR 2024最佳论文!深圳大学联手香港理工发布MemSAM:将 「分割一切」模型用于医学视频分割

HyperAI超神经
HyperAI超神经 · 2024-06-12T04:36:34Z

本文探讨了自然语言生成(NLG)评估中自动化评估方法的局限性,并提出了一种新的系统和数据独立的评价方法。实验证明,自动评估不能完全反映人的判断,但仍可支持系统开发。

分级评估框架:人工评估的最佳实践

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-03T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码