小红花·文摘

Tw93 的博客 ·

上海交通大学发布的开源测评集GM-100包含100个任务和13,000条操作轨迹数据，旨在评估机器人智能与物理执行的协同能力。该测评集强调任务设计的广度与评估的深度，提供多维指标分析模型性能，推动行业标准化，降低研究门槛，促进合作与交流。

量子位 ·

该研究提出了HumanVBench基准，旨在评估多模态大语言模型在视频理解中的表现。通过设计17个任务，衡量视频模型在情感、行为和语言复杂性方面的性能限制，推动该领域的发展。

BriefGPT - AI 论文速递 ·

本文探讨了隐含话语关系标注的众包任务设计，比较了自由选择与强制选择的标注结果。研究发现，自由选择方法灵活但标注多样性较低，容易集中于常见标签，强调了任务设计与标注者能力之间的相互影响。

BriefGPT - AI 论文速递 ·

本文探讨了多种提示策略在大型语言模型中的应用，包括动态提示、问题重新阅读和元提示技术。这些方法通过优化提示信息和任务分解，提高了模型的性能和推理能力，尤其在复杂任务中表现出色。研究表明，模型规模、提示结构和任务设计对性能有显著影响。

BriefGPT - AI 论文速递 ·

Amir Rachum’s Blog ·