Google DeepMind Blog ·

测量人工智能模型的感知能力

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

本文介绍了“感知测试”，这是一个基于真实视频的多模态基准，用于评估人工智能模型的感知能力。该基准设计了37个视频脚本，涵盖空间和时间注释，旨在解决现有基准的局限性，促进对模型的全面评估，推动人工智能的研究与发展。

🎯

关键要点

感知测试是一个多模态基准，旨在评估人工智能模型的感知能力。
该基准设计了37个视频脚本，涵盖空间和时间注释，确保数据集的平衡性。
视频由超过100名众包参与者拍摄，生成了11609个视频，平均时长23秒。
感知测试包括多种任务，评估模型在视觉问答、对象跟踪等方面的能力。
评估结果涵盖多个维度，帮助识别模型的改进领域。
基准的开发考虑了参与者的多样性，确保不同国家、种族和性别的代表性。
感知测试基准将公开发布，并计划在未来与多模态研究社区合作，增加更多注释和任务。

❓

延伸问答

什么是感知测试，它的目的是什么？

感知测试是一个多模态基准，旨在评估人工智能模型的感知能力，解决现有基准的局限性。

感知测试包含哪些类型的任务？

感知测试包括视觉问答、对象跟踪等多种任务，评估模型在不同方面的能力。

感知测试的数据集是如何构建的？

数据集由37个视频脚本设计而成，涵盖空间和时间注释，确保数据集的平衡性。

感知测试如何确保参与者的多样性？

感知测试考虑了参与者的多样性，确保不同国家、种族和性别的代表性。

感知测试的评估结果如何帮助改进模型？

评估结果涵盖多个维度，帮助识别模型的改进领域，提供详细的技能评估。

感知测试的未来计划是什么？

未来计划与多模态研究社区合作，增加更多注释和任务，并公开发布基准。

🏷️

标签

人工智能多模态基准感知测试模型评估视频脚本

➡️

继续阅读

基于超1万肿瘤样本训练，哈佛医学院等提出泛癌症基础模型COMPASS，平均性能优于22种现有方法
COMPASS 首次将这一架构引入癌症转录组分析领域，通过利用免疫相关基因集，并建立：基因（gene）→ 基因集（gene set）→ 概念（concep...
如果AI模型开源了权重，这算不算"AI倾销"新玩法
100亿美元AI模型开源，这算不算"AI倾销"新玩法？短期狂欢背后藏着长期减速铁律前沿大模型的开源正撕裂AI圈。支持者说这是创新加速器，...
不同模型厂同一家Agentic Infra，AGI时代的地基终于浮出水面
大模型时代的共同选择
TÜV南德与中国汽研联合发布全域车用AI可信能力等级测评
(全球TMT 2026年07月20日讯)在2026世界人工智能大会（WAIC）全球工业人工智能国际合作论坛期间 […]
TÜV南德深度参与2026世界人工智能大会
(全球TMT 2026年07月20日讯)7月17至18日，国际第三方检测认证机构TÜV南德意志集团深度参与20 […]
迅策科技TokenOS数据Token化能力首次大规模进入私募股权投资领域
(全球TMT 2026年07月20日讯)7月19日，迅策科技发布公告，宣布其与洪泰基金的控股公司青岛鑫辰科创实 […]