小红花·文摘

本研究提出WavReward模型，解决了口语对话模型评估不足的问题，能够有效衡量对话系统的智商与情商，评估准确率从55.1%提升至91.5%。

BriefGPT - AI 论文速递 ·

本研究提出了M-Prometheus，一个开放权重的多语言评估模型，旨在解决语言模型仅优化于英语的问题，显著提升生成输出质量，推动多语言模型的发展。

BriefGPT - AI 论文速递 ·

本研究提出了提议者-代理-评估者（PAE）系统，旨在解决基础模型代理技能多样性不足的问题。该系统使代理能够自主发现和实践技能，在复杂的视觉网络导航任务中表现优异，超越人类标注基准，具有重要的实际应用潜力。

BriefGPT - AI 论文速递 ·

本研究提出了ACE-$M^3$，一种开源的自动能力评估工具，旨在有效评估医疗领域的多模态大型语言模型（MLLMs）。该工具通过分支合并架构和奖励标记优化策略，提高了评估效率，实验结果显示其在评估医疗模型能力方面表现显著。

BriefGPT - AI 论文速递 ·

Rust.cc ·

本文介绍了 MyBatis 解析配置文件的实现过程，包括解析 mappers 和 SQL 语句。apply 方法通过 evaluator 对集合表达式进行求值，并将元素值替换到 SQL 语句中，最终通过 executor 执行 SQL 语句。

Nicksxs's Blog ·