Databricks ·

宣布 MLflow 2.8 的 LLM 评估指标及 RAG 应用评估最佳实践，第二部分

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

MLflow 2.8支持LLM作为评估指标，提供了自定义框架和数据清洗技术，以提高聊天机器人响应性能。

🎯

🏷️

τ0-VLA——具有世界模型“引导测试时计算”的分层机器人模型：首先生成多个子任务候选，然后世界模型预演，最后价值模型评估
本文摘要：τ0-VLA提出了一种分层机器人基础模型，通过世界模型引导的测试时计算来提升长时程任务中的决策质量。该系统采用高层策略生成候选子任务，结合世界模...
Microsoft Three-Layer LLM Routing Architecture for AI Agents on AKS
Microsoft has released a reference architecture for routing agent traffic on ...
黑芝麻智能与正行创新展开深度合作，推动具身智能技术规模化应用
(全球TMT 2026年07月29日讯)7月29日，黑芝麻智能与正行创新（北京）科技有限公司正式签署战略合作协 […]
【系统架构设计】AI 原生架构：LLM 时代的系统设计
当 LLM 从离线批处理变成在线运行时组件，超时预算、按 token 计费、非确定性输出与多轮 Agent 编排必须进入架构的一等公民。本文从依赖语义差异...
从 Harness 引擎到 MetaSkill DAG 的确定性架构 - 张善友
OpenClaw.NET 的 MetaSkill DAG 不是老工作流的复辟，也不是 ReAct 的放大版。它是第三代：节点内部保留模型的判断力，节点之间...
Release Notes for Safari Technology Preview 249
Safari Technology Preview Release 249 is now available for download for macOS...