小红花·文摘

百度大脑 ·

本研究提出了Pix2Cap-COCO，这是首个用于提升细粒度视觉理解的全景像素级字幕数据集。通过自动化标注流程，利用GPT-4V生成与像素对齐的字幕，显著提升了多模态模型的性能。

BriefGPT - AI 论文速递 ·

本文探讨了机器人数据集中自然语言注释稀缺的问题，提出了一种名为NILS的新方法，能够自动化标注长时间跨度的机器人数据。该方法无需人工干预，显著提高了标注效率和质量，能够有效处理未标注和非结构化的数据集，对机器人学习产生重要影响。

BriefGPT - AI 论文速递 ·

本文介绍了一种名为标准化测试套件（STS）的方法，用于评估智能体在与人类进行多模态互动中的表现。STS通过真实人类互动数据构建行为场景，记录智能体的表现并由人类评估成功与否。该方法旨在提高评估的控制性和速度，促进人机互动研究的发展。早期实验显示自动化标注可能可行，从而实现快速有效的评估。

Google DeepMind Blog ·