小红花·文摘

Meta发布了升级版的计算机视觉模型Segment Anything Model 2 (SAM 2)，可以实时快速识别和分离图像或视频中的对象。文章提供了使用Modelbit将SAM 2模型部署为REST API的说明。SAM 2具有多个关键功能和增强，包括内存机制、流式架构、增强图像分割、多个掩码预测、遮挡预测和视频分割。文章还解释了如何以编程方式使用SAM 2为图像生成分割掩码。最后，讨论了如何使用Modelbit将SAM 2模型部署为REST API端点。

如何使用Modelbit部署Segment Anything Model 2 (SAM 2)

DEV Community ·

BEHAVIOR Vision Suite (BVS)是一个用于评估和理解计算机视觉模型的新工具包。它允许研究人员在场景、物体和相机级别上控制各种参数，帮助创建高度定制的数据集。BVS旨在通过提供可定制和物理真实的合成数据来解决现实世界数据集的局限性。它包括大量的物体模型和场景实例，以及可定制的数据集生成器。生成器允许用户指定场景布局、物体状态、相机角度和光照条件等参数。BVS已被证明对于评估模型的鲁棒性、比较不同的计算机视觉模型以及训练和评估物体状态和关系预测的sim2real转移非常有用。

BVS：多强联手，李飞飞也参与的超强仿真数据生成工具，再掀数据狂潮 | CVPR 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

研究人员提出了一种简单而有效的数据增强方法，通过生成标记的真实图像的变体，进行生成性物体和背景增强，扩充现有的训练数据。背景增强尤其显著提高了模型的鲁棒性和泛化能力。该增强技术在不同场景下显著提升了模型的性能，为数据集增强的挑战提供了有希望的解决方案，为计算机视觉模型的发展做出了贡献。

一种用于物体检测的简单背景增强方法与扩散模型

BriefGPT - AI 论文速递 ·

本论文介绍了MAIA，一种多模态自动解释性代理，利用神经模型自动化神经模型理解任务，并提供实验和解释工具。评估结果显示，MAIA在计算机视觉模型中具有良好的应用潜力。

多模态自动可解释性代理

BriefGPT - AI 论文速递 ·

BIOSCAN-Insect数据集是一个包含百万图像和遗传信息的手动标注的昆虫图像数据集，可用于训练计算机视觉模型和生物多样性研究。该数据集具有长尾类别不平衡分布和细粒度分类问题，可推动全球生物多样性的综合调查。

基于人工智能的全球范围兰花群落保护状况绘制

BriefGPT - AI 论文速递 ·

本文介绍了Transformer多头注意力机制及其在计算机视觉模型中的应用。传统的多头注意力机制计算复杂且训练收敛速度慢，因此提出了可变形多头注意力机制来降低计算复杂度。可变形多头注意力机制通过对每个查询元素选择一小部分特征进行注意力计算，从而减少计算量。文章还介绍了可变形多头注意力机制v2，该机制使用共享的全局偏移键来减少内存消耗。最后，文章提到了多尺度可变形多头注意力机制，用于支持具有不同空间分辨率的多尺度特征图。可变形多头注意力机制v2相比传统多头注意力机制具有更低的内存消耗和更接近卷积的特点。

可变形注意力机制

Lei Mao's Log Book ·

该文介绍了一种名为视觉保留网络（ViR）的新的计算机视觉模型，具有双并行和循环结构，可在快速推理和并行训练之间达到最佳平衡，并具有可扩展性。ViR 是第一个尝试在通用视觉骨干网络中实现双并行和循环等效性的方法，通过大量实验证实了 ViR 的有效性，并提供了代码和预训练模型的公开获取。

ViR: 视觉记忆网络

BriefGPT - AI 论文速递 ·