小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
自愈智能体:从质量评估到Bug修复全流程自动闭环

自愈Agent系统通过AI自动评分、修复和上线,重构软件开发流程。AI独立完成评估和Bug修复,提升效率,消除人工QA和测试环境。系统通过五个步骤循环运作,快速发现和解决问题,确保软件质量,实现全自动化,显著提高发布频率和响应速度。

自愈智能体:从质量评估到Bug修复全流程自动闭环

极道
极道 · 2026-04-28T02:28:00Z

本文讨论了AI代理的评估方法,强调评估需要明确的体系和标准。通过拆分问题,结合硬性规则、事实检查和主观质量评估,形成全面的评估框架。评估应涵盖政策符合性、事实覆盖和用户反馈等多个维度,以确保AI系统的回答准确且有帮助。此外,评估流程应包括离线和线上测试,以持续优化AI代理的表现。

AI Agent 评估应该怎么做

luozhiyun`s Blog 我的技术分享
luozhiyun`s Blog 我的技术分享 · 2026-04-27T02:18:36Z
MySQL性能:OpenSSL-3.5.5评估

本文评估了OpenSSL-3.5.5在MySQL CPU密集型OLTP工作负载下的性能,重点分析了SSL开启与关闭对性能的显著影响。测试使用Sysbench进行Point-SELECTs和Re-Connect SELECTs,结果显示不同OpenSSL版本之间的性能差异。

MySQL性能:OpenSSL-3.5.5评估

Planet MySQL
Planet MySQL · 2026-04-22T04:50:00Z

cargo-aprz 1.0.0 是一个 Rust 依赖质量评估工具,通过多维度指标帮助开发者了解 crate 的质量。qusql 是编译时 SQL 检查工具,支持 MySQL 和 PostgreSQL,提升性能。cuneus 项目发布了多个版本,增加新功能和修复问题。Rasant 是高性能的 Rust 日志库,提供灵活配置和优异性能,欢迎社区反馈。

【Rust日报】2026-04-20 cargo-aprz 1.0.0 发布 - Rust 依赖质量评估工具

Rust.cc
Rust.cc · 2026-04-21T01:15:15Z
更好的工具:利用评估数据进行工具优化的方案

通过使用评估数据(evals),我们可以迭代改进智能代理的性能。评估数据作为训练数据,指导代理学习和优化行为。强调数据质量和设计的重要性,以避免过拟合,并通过手动编写、生产追踪和外部数据集获取评估,确保代理在新输入上的泛化能力。

更好的工具:利用评估数据进行工具优化的方案

LangChain Blog
LangChain Blog · 2026-04-08T19:30:20Z
评估自主系统的伦理问题

麻省理工学院的研究人员开发了一种自动评估方法,旨在识别AI决策中的伦理问题。该方法利用大型语言模型(LLM)捕捉利益相关者的偏好,并在成本、可靠性与公平等主观价值之间进行平衡。通过分层结构,系统能够有效识别符合伦理标准的场景,从而优化决策过程。

评估自主系统的伦理问题

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-04-02T04:00:00Z
嬴彻科技正式通过Automotive SPICE CL2评估

嬴彻科技通过Automotive SPICE CL2评估,证明其在卡车自动驾驶软件开发及管理能力达到国际标准,获得权威认可。

嬴彻科技正式通过Automotive SPICE CL2评估

全球TMT-美通国际
全球TMT-美通国际 · 2026-04-01T08:26:40Z

本文回顾了论文《谁评估人工智能的社会影响?第一方和第三方评估的覆盖与差距》。研究发现,AI开发者在偏见、环境成本和劳动实践方面的数据报告稀少,而独立第三方提供了更全面的分析。研究呼吁强制披露数据来源和评估成本,并建立独立评估生态系统和共享基础设施。

谁评估人工智能的社会影响?第一方和第三方评估的覆盖与差距

Micropaper
Micropaper · 2026-03-31T00:00:00Z
我们如何为深度代理构建评估

本文讨论了为深度代理构建评估的重要性,强调评估应针对实际所需行为,避免盲目增加测试数量。通过分析错误和使用外部基准,团队可以创建有针对性的评估,确保代理的准确性和效率。评估的设计和实施包括定义行为、创建指标和运行评估,以持续改进代理性能。

我们如何为深度代理构建评估

LangChain Blog
LangChain Blog · 2026-03-26T15:18:56Z
AI 驱动的 Graviton 迁移评估:Kiro Power 实战指南

本文探讨如何利用Kiro Power加速Graviton迁移,解决代码兼容性、依赖库分析和容器适配等挑战。Kiro Graviton Migration Power通过AI自动分析代码,识别兼容性问题并提供迁移建议,从而提高迁移效率,帮助企业优化云计算成本。

AI 驱动的 Graviton 迁移评估:Kiro Power 实战指南

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-03-25T05:40:32Z
AutoResearch评估技能背后的三大鸿沟与实战复盘

文章探讨了AI智能体优化的真实案例,强调理解是基础,自动化是放大器。通过观察输出和建立失败直觉,填平“理解、规格、泛化”三大鸿沟,才能让工具发挥作用。自动化工具如Auto Research需在理解基础上使用,以避免优化错误方向。最终,成功的关键在于深刻理解,自动化应建立在此之上。

AutoResearch评估技能背后的三大鸿沟与实战复盘

极道
极道 · 2026-03-22T07:58:00Z

全球科技公司HCLTech连续第三年被Ethisphere评为全球最具商业道德企业之一,评估涵盖240项道德、合规和治理指标。

HCLTech获评2026年全球最具商业道德企业之一

全球TMT-美通国际
全球TMT-美通国际 · 2026-03-20T02:53:33Z
AgentEval:面向 .NET 生态的企业级 AI 智能体评估框架

AgentEval是José Luis Latorre Millas开发的.NET工具包,专注于AI智能体评估,填补了.NET生态中评估工具的空白。它采用C#语言,支持多代理协作评估,强调开发者体验,简化AI评估过程。通过引入“任务效用”概念,AgentEval实现了多维度评估,提高了评估的准确性和适应性。

AgentEval:面向 .NET 生态的企业级 AI 智能体评估框架

dotNET跨平台
dotNET跨平台 · 2026-03-19T23:26:00Z
AgentEval:面向 .NET 生态的企业级 AI 智能体评估框架 - 张善友

AgentEval是José Luis Latorre Millas开发的.NET工具包,专为AI智能体评估设计,填补了.NET生态中评估工具的空白。它采用C#语言,支持多代理协作和动态生成评估标准,强调任务效用的多维评估。AgentEval与Microsoft Agent Framework深度集成,提供无侵入的评估方式,降低技术复杂度,提升开发者体验。尽管目前处于实验阶段,但其设计理念和功能展现了企业级AI评估的潜力。

AgentEval:面向 .NET 生态的企业级 AI 智能体评估框架 - 张善友

张善友
张善友 · 2026-03-19T23:17:00Z
通过Agent Bricks和Databricks Apps向业务用户交付高质量的企业AI代理

构建可信赖的AI代理并投入生产是企业面临的挑战。Databricks平台提供了Agent Bricks、Databricks Apps和Databricks One等工具,帮助团队高效构建、评估和优化AI代理,简化用户体验并确保安全访问。

通过Agent Bricks和Databricks Apps向业务用户交付高质量的企业AI代理

Databricks
Databricks · 2026-03-16T18:45:00Z
如何交付一个生产就绪的检索增强生成(RAG)应用程序,使用FAISS(安全防护、评估和后备机制)

本文介绍了构建适合生产环境的检索增强生成(RAG)应用程序的方法,重点解决检索不准确、缺乏可见性和系统脆弱性等问题。教程涵盖使用FastAPI、FAISS向量存储和安全防护措施的系统架构,以确保模型在真实用户环境中的稳定运行,并通过设置检索门和后备机制提升应用的可靠性和用户体验。

如何交付一个生产就绪的检索增强生成(RAG)应用程序,使用FAISS(安全防护、评估和后备机制)

freeCodeCamp.org
freeCodeCamp.org · 2026-03-16T17:43:51Z
GSMA发布白皮书,阐述AI Calling体验评估规范

在2026年巴塞罗那通信展上,GSMA发布白皮书,探讨移动AI时代运营商原生话音业务的发展,重点关注AI沉浸式和交互式通话。白皮书定义了AI Calling体验评估规范,强调AI降噪和实时翻译等应用,以提升运营商的语音服务体验。

GSMA发布白皮书,阐述AI Calling体验评估规范

全球TMT-美通国际
全球TMT-美通国际 · 2026-03-12T05:02:06Z
Databricks收购Quotient AI以增强AI代理评估能力

Databricks收购Quotient AI,增强了AI代理的评估与学习能力。Quotient帮助企业监控代理行为、检测问题并持续改进性能。此次收购提升了Databricks的Genie、Genie Code和Agent Bricks的功能,使AI系统更加准确和可靠。

Databricks收购Quotient AI以增强AI代理评估能力

Databricks
Databricks · 2026-03-11T14:00:00Z
电子商务搜索中的稀疏嵌入微调 | 第3部分:评估与困难负样本

本文讨论了电子商务搜索中的稀疏嵌入微调,重点评估了SPLADE模型及其困难负样本挖掘。经过微调的SPLADE模型在nDCG@10指标上比BM25提高了28%,强调了领域特定训练的重要性。文章还分析了稀疏与密集向量的混合搜索效果,以及困难负样本挖掘(ANCE)对模型性能的提升。总体而言,微调显著改善了查询扩展、术语加权和电商词汇的表现。

电子商务搜索中的稀疏嵌入微调 | 第3部分:评估与困难负样本

Qdrant - Vector Database
Qdrant - Vector Database · 2026-03-09T00:00:00Z
技能评估

在LangChain,我们开发了技能以提升编码代理(如Claude Code)的性能。技能是动态加载的指令和资源,需经过测试以确保有效。评估流程包括设定任务、定义技能、测试表现并比较结果。创建技能时需关注内容模块化和清晰的任务定义,以便有效评估。通过观察代理行为,快速迭代技能内容,提升编码代理能力。

技能评估

LangChain Blog
LangChain Blog · 2026-03-05T18:00:49Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码