机器之心 ·

视觉SSL终于追上了CLIP！Yann LeCun、谢赛宁等新作，逆转VQA任务固有认知

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

研究者探讨了无语言监督的视觉表征学习在多模态任务中的潜力，提出的Web-SSL模型在视觉问题解答（VQA）中表现优异，甚至超越了语言监督的方法。通过扩展数据和模型规模，视觉自监督学习在OCR和图表理解任务中展现出强大能力。

🎯

❓

Web-SSL模型在VQA中表现优异，甚至超越了语言监督的方法。

视觉SSL在多模态任务中可以匹配甚至超越语言监督的视觉预训练方法，尤其在OCR和图表理解任务中表现突出。

研究者使用Cambrian-1评估套件，涵盖多个VQA类别进行评估。

扩展数据集和模型规模可以显著提高视觉SSL在VQA任务中的性能，尤其是在OCR和图表任务中。

Web-DINO在高分辨率下的表现逐渐改善，显示出进一步提高高分辨率适应性的潜力。

视觉SSL在分类和分割方面保持竞争力，同时在VQA上有所改进。

🏷️

MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
Superpowers 为什么能执行长任务且确保交付质量？
Superpowers通过明确需求沟通和任务拆分，优化了AI执行长任务的流程。采用头脑风暴、计划撰写和计划执行的步骤，确保高质量输出。子代理驱动开发模式使...
在Vibe编码时代使OWASP前十名更具影响力
2025年OWASP前十名更新将重点从“过时组件”转向软件供应链安全，新增内存安全和“vibe编码”意识项，反映了开发者和网络应用安全领域对关键安全风险的共识。
Mavrix在劳德代尔堡设立美国新总部
(全球TMT 2026年06月05日讯)Mavrix宣布，在佛罗里达州劳德代尔堡设立美国总部。该公司2026年 […]
与TorchRec KeyedJaggedTensor的同步
Efficiently Using TorchRec KeyedJaggedTensor In GPU Systems
SuperX首个美国AI推理云中心在丹佛投入运营
(全球TMT 2026年06月05日讯)全栈式AI基础设施解决方案提供商SuperX AI Technolog […]