Databricks ·

推出增强型代理评估

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

Databricks推出Mosaic AI代理评估新功能，旨在解决客户在模型生产性能和迭代改进中的挑战。该功能包括自定义自动评估、与领域专家合作收集反馈，以及支持任意输入/输出模式，帮助团队提升GenAI应用的质量和效率。

🎯

❓

新功能包括自定义自动评估、与领域专家合作收集反馈、支持任意输入/输出模式等。

客户主要面临缺乏对模型生产性能的信心和缺乏明确的迭代改进路径。

可以使用自然语言提供指导方针，系统会自动评估每个请求是否符合这些指导方针。

自定义指标允许用户根据业务需求定义评估标准，提供灵活的评估方式。

可以通过升级后的Review App收集领域专家的反馈和标签，简化开发者与专家之间的合作。

评估数据集帮助开发者在发布前验证应用质量和性能，类似于单元和集成测试。

🏷️

FurGPT 扩展了用于实时交互的 AI 代理生态系统
去中心化AI数字伴侣平台FurGPT扩展了生态系统，支持区块链网络上的实时交互，能够实时处理上下文信息，促进用户与数字伙伴的动态沟通。平台提升了去中心化应...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
自主代理面临的最大挑战：数据库。
大型语言模型正在从简单的聊天机器人发展为能够推理和行动的自主代理，但数据库优化的复杂性仍是主要挑战。卡内基梅隆大学的安迪·帕夫洛指出，AI在数据库领域的影...
GitHub宇宙回来了：在代理时代，我们齐心协力
在2026年Microsoft Build大会上，GitHub推出了新工具和更新，旨在提升用户体验。用户可以在VS Code或CLI中开始工作，然后在手机...
我们在2026年5月发布的最新AI新闻
谷歌在2026年5月推出了多个AI相关产品，包括Gemini 3.5和Gemini Omni，旨在提升日常生活便利性。新应用Google Health和F...
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...