小红花·文摘

在AI工程中，评估管道至关重要，通常被忽视。有效评估需包含数据集、标准、执行器和打分器。使用大型语言模型（LLM）作为裁判可以解决缺乏标准答案的问题，但需警惕偏见。评估应关注领域能力、生成质量和指令遵循。红队测试应持续进行，以应对用户的创新使用方式。建立评估管道可防止模型回归，确保AI系统质量。

暗无天日 ·

本研究提出了YABLoCo基准，旨在克服现有基准在小型和中型上下文窗口中的局限性。该基准包含215个来自大型存储库的C和C++函数测试集，能够有效评估大规模代码生成的潜力，并提供可扩展的评估管道和可视化分析工具。

BriefGPT - AI 论文速递 ·

本文探讨了图像-文本检索（ITR）的评估管道及其脆弱性，并提出改进方案。研究提出了一种高效的文本到视频检索方法，结合多粒度视觉特征学习和二阶段检索架构，性能与现有方法相当且速度快50倍。此外，提供了细粒度图像检索模型设计指南和新颖的检索框架，显著提升了检索准确性和效率。

BriefGPT - AI 论文速递 ·