小红花·文摘

LARYBench 发布：定义具身动作表征 ImageNet，首次度量从人类视频学习的泛化表征

美团技术团队 ·

链式草图：促进全球视觉推理

Apple Machine Learning Research ·

近两年，AI迅速发展，普通人主要应用于对话和生图。文章介绍了AI大模型的类型，包括语言模型、向量模型、视觉模型和多模态模型，以及获取和使用的方法。熟练掌握AI将成为未来必备技能。

2025小白AI入门指南！从如何白嫖到如何使用，一文入门

熊猫不是猫QAQ ·

认知科学家收集了包含数百万个“奇异物体”判断的THINGS数据集，但仅使用几千张图像进行微调，导致模型过拟合并遗忘先前技能。

教人工智能更像我们一样看待世界

Google DeepMind Blog ·

最新研究表明，视觉模型与人脑的相似性受模型大小、训练数据量和图像类型的影响。DINOv3模型在训练中逐步与人脑表征一致，尤其在使用人类相关图像时效果最佳。研究发现，模型学习的表征层级与大脑结构高度一致，不同特征的出现速度也存在差异。

Ollama 五月更新解读：多模态、工具调用、模型思考，AI 本地化再进一步！

路边的阿不 ·

该研究提出了FORTRESS框架，旨在解决大型视觉和语言模型在处理分布外故障时的推理延迟问题，实时生成安全后备策略，从而提高系统安全性和规划成功率。

Real-time Out-of-Distribution Fault Prevention through Multimodal Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了VISLIX框架，用于验证视觉模型，解决数据切片方法中的挑战，如缺乏图像元数据。VISLIX能够自动生成自然语言洞察，支持用户与数据切片假设的互动测试，从而提升对象检测模型的验证过程。

VISLIX: An Explainable AI Framework for Validating Vision Models through Slice Discovery and Analysis

BriefGPT - AI 论文速递 ·

本研究提出了Seg2HOI框架，结合视觉模型与人机交互任务，能够有效生成分割掩膜的四元组，其性能与先进方法相当，具有良好的应用潜力。

基于基础模型的人机交互预测框架与分割掩膜集成

BriefGPT - AI 论文速递 ·

卷积网络又双叒叕行了？OverLoCK:一种仿生的卷积神经网络视觉基础模型

机器之心 ·

本研究提出了LEAVS，一个针对腹部CT报告的标注器，能够为九个腹部器官标注七种异常，其性能显著优于其他标注器和人类，提取的标签可用于训练视觉模型。

LEAVS: A Large Language Model-Based Supervised Annotator for Abdominal CT Reports

BriefGPT - AI 论文速递 ·

本研究提出CREStE方法，解决长距离无地图导航问题，使机器人在新环境中无需高精度地图。该方法利用互联网规模数据训练的视觉模型，学习环境特征，并通过反事实损失和主动学习进行路径规划，显著提高导航效果，减少70%人为干预。

CREStE：使用互联网规模先验知识和反事实指导的可扩展无地图导航

BriefGPT - AI 论文速递 ·

🤖 Open-CUAK：‘OpenAI Operator’ 现已开源！👥

DEV Community ·

该研究探讨了视觉模型在时间序列分析中的应用，介绍了将时间序列编码为图像的建模方法，分析了预处理和后处理的挑战及未来发展方向。

利用视觉模型进行时间序列分析：综述

BriefGPT - AI 论文速递 ·

阿里云通义开源Qwen2.5-VL，视觉理解能力全面超越GPT-4o

机器之心 ·

本研究提出了一种新颖的Group Sparse LoRA (GS-LoRA)方法，有效解决了在隐私和安全方面删除预训练视觉模型中不必要信息的问题。实验结果表明，该方法在面部识别、物体检测和图像分类任务中实现了信息遗忘，影响最小。

Practical Continuous Forgetting in Pre-trained Visual Models

BriefGPT - AI 论文速递 ·

本研究探讨了数据集多样性对视觉模型性能的影响，发现准确性与数据多样性之间存在显著正相关，强调了理解数据集在构建更强大、可泛化模型中的重要性。

Exploring the Efficacy of Meta-Learning: Unveiling the Superior Utilization of Data Diversity in MAML Compared to Pre-training

BriefGPT - AI 论文速递 ·

LARYBench 发布：定义具身动作表征 ImageNet，首次度量从人类视频学习的泛化表征

链式草图：促进全球视觉推理

2025小白AI入门指南！从如何白嫖到如何使用，一文入门

教人工智能更像我们一样看待世界

最新研究揭示视觉模型与人脑的对齐机制

Ollama 五月更新解读：多模态、工具调用、模型思考，AI 本地化再进一步！

Real-time Out-of-Distribution Fault Prevention through Multimodal Reasoning

VISLIX: An Explainable AI Framework for Validating Vision Models through Slice Discovery and Analysis

基于基础模型的人机交互预测框架与分割掩膜集成

卷积网络又双叒叕行了？OverLoCK:一种仿生的卷积神经网络视觉基础模型

LEAVS: A Large Language Model-Based Supervised Annotator for Abdominal CT Reports

CREStE：使用互联网规模先验知识和反事实指导的可扩展无地图导航

🤖 Open-CUAK：‘OpenAI Operator’ 现已开源！👥

利用视觉模型进行时间序列分析：综述

阿里云通义开源Qwen2.5-VL，视觉理解能力全面超越GPT-4o

Practical Continuous Forgetting in Pre-trained Visual Models

Exploring the Efficacy of Meta-Learning: Unveiling the Superior Utilization of Data Diversity in MAML Compared to Pre-training

使用EmbedAnything与ColPali优化视觉语言模型令牌

智源发布FlagEval「百模」评测结果，丈量模型生态变局

使用.NET Aspire比较开源视觉模型在照片描述任务中的表现