BriefGPT - AI 论文速递 ·

自主训练的掩蔽关注引导的掩蔽图像建模与噪音约束教师 (SMART) 用于医学图像分析

💡 原文中文，约400字，阅读约需1分钟。

📝

内容提要

本文介绍了视觉Transformer和掩蔽的图像建模(MIM)的新趋势，提出了一种新的掩蔽策略，称为注意力引导掩蔽(AttMask)，证明了它在密集的基于蒸馏的MIM以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。

🎯

关键要点

本文介绍了视觉Transformer和掩蔽的图像建模(MIM)的新趋势。
图像记号掩蔽与文本中的掩蔽不同，因其记号数量和相关性不同。
提出了一种从随机掩蔽到知情掩蔽的转变，以生成具有挑战性的预文本任务。
在基于蒸馏的MIM中，教师Transformer编码器生成关注图以指导学生的掩蔽。
引入了一种新的掩蔽策略，称为注意力引导掩蔽(AttMask)。
AttMask在密集的基于蒸馏的MIM和分类记号的自监督学习上效果优于随机掩蔽。
AttMask加速了学习过程并提高了各种下游任务的性能。
实现代码可在指定的URL中找到。

🏷️

继续阅读

在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提...
机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑
清华大学智能产业研究院推出了全新的机器人强化学习训练架构UniLab，打破了传统依赖GPU的训练模式。UniLab通过将仿真解耦到CPU侧，实现了更高的训...
时薪最高304元！马斯克xAI招募中文AI训练师，支持远程兼职
马斯克的人工智能公司xAI正在全球招聘“中文AI训练师”，以提升其大模型Grok的语音互动和多语言处理能力。该职位时薪35至45美元，工作灵活，适合寻求副...
我体验了下一代手持设备
MSI Claw 8 EX AI Plus手持设备搭载Intel Arc G3 Extreme芯片，性能和电池续航显著提升。在1080p高设置下可流畅运行...
Rayfin：微软对氛围编码与企业级生产之间差距的回应
微软在Build 2026上推出了Rayfin，这是一个开源SDK和CLI，旨在简化企业应用程序的开发和部署。Rayfin允许开发者通过代码定义应用后端，...
微软押注企业AI竞赛将依赖数据上下文而非模型能力
微软在Build 2026开发者大会上推出了Microsoft Fabric，旨在解决企业AI中的数据上下文问题。新平台包括HorizonDB数据库、GP...

自主训练的掩蔽关注引导的掩蔽图像建模与噪音约束教师 (SMART) 用于医学图像分析

内容提要

关键要点

标签

继续阅读