本文介绍了Matterport3D数据集及其仿真器,推动视觉与语言导航研究。Room-to-Room(R2R)数据集基于真实建筑,包含21,567条导航指令,旨在解决视觉语言导航中的数据孤岛问题,提供统一的研究基准。
RoboVerse是一个统一的机器人学习平台,解决了数据集和评估体系的碎片化问题。它提供MetaSim接口,支持多种仿真器,构建高质量合成数据集,并实现混合仿真,提升迁移效果。此外,平台支持遥操作和AI自动生成任务,显著提高研究效率与实验规模。
本研究分析了卷积Kolmogorov-Arnold网络(CKANs)在处理大型复杂数据集时的效率,结果显示其在小型数据集上表现尚可,但在ImageNet等大型数据集上明显不如传统卷积神经网络(CNNs),为未来CKANs的改进提供了重要参考。
本研究探讨自监督学习框架在ImageNet上的改进是否能在相似数据集上提升性能。评估结果显示,表现优异的模型在其他数据集上可能性能下降,呼吁对基准测试进行更全面的评估。
本文探讨了强健模型与非强健模型的区别,分析了16个零-shot CLIP视觉编码器的表示空间。研究发现,强健模型中存在异常特征,表明其对ImageNet分布变化的鲁棒性。零-shot CLIP模型编码了更多独特概念,但与鲁棒性无关,可能与语言监督有关。这些异常特征有助于评估预训练模型的鲁棒性。
本文介绍了如何使用ImageNet数据集,包括ImageNet()函数的参数设置,如数据根目录、数据分割(训练或验证)、变换和加载器。用户需手动下载数据集并运行ImageNet()以提取数据。训练集包含1281167张图像,验证集有50000张,并提供了加载和显示图像的示例代码。
在MEET2025大会上,群核科技的唐睿博士探讨了具身智能的发展,强调其与AI的区别在于能够与物理世界互动。具身智能未来可能成为自动驾驶的延伸,具备主动服务能力。具备图形学背景的公司在模拟世界方面具有优势,推动了该领域的快速发展。
斯坦福大学的李飞飞和吴佳俊团队推出了HourVideo数据集,以评估长视频理解能力。该数据集包含500个第一人称视角的视频,时长20至120分钟,涵盖77种日常活动。实验结果表明,现有多模态模型在长视频理解方面的表现远低于人类专家,亟需改进。
研究提出了一种线性化框架下的微调近似方法,介绍了Label-Gradient和Label-Feature Correlation两个新模型选择基准,展示了在低数据量情况下有效选择最佳微调模型的策略。
分形几何是通过递归迭代生成图像的数学分支。研究发现,即使只有一个分形图像,也可以进行有效的预训练。通过引入局部扰动交叉熵损失函数,可以训练神经网络对小扰动进行分类。预训练可能只是更好的权重初始化,而不是发现有用视觉概念的必要条件。这对于减少预训练数据集的规模具有重要意义。
陶哲轩在国际数学奥赛上为AI团队颁奖。Numina团队使用Python代码验证想法,通过微调、新颖解码算法和内部验证数据集,使用7B模型解决数学奥赛难题。他们还开源了约86万道题目微调数据集。Numina的目标是做出AI数学的ImageNet。
研究比较了四种视觉基础模型,发现DINO V2在各种数据集和适应方法上始终优于其他模型,特别在语义分割任务上表现出色。研究揭示了在少样本语义分割情境中特征提取的关键作用,强调了稳健特征提取器的重要性。
通过脑活动识别和重建我们所看到的内容,可以深入研究生物视觉系统如何代表世界。本文介绍了 EEG-ImageNet,一个包括从 16 名受试者记录的来自 ImageNet 数据集中的 4000 个图像的新颖 EEG 数据集,该数据集为目标分类和图像重建建立了基准。实验结果表明该数据集有助于推动基于脑电图的视觉脑 - 计算机界面,理解生物系统的视觉知觉,并在改进机器视觉模型方面有潜在应用。
本文研究了基于特征的深度聚类方法在大规模基准数据集上的性能和数据相关因素的影响。实验结果显示,深度聚类方法在大多数数据集上优于传统的k-means方法,并发现非主要聚类预测能够捕获有意义的类别。
本研究探索了预训练视觉-语言模型在智能生成图像的检测中的潜力。通过基于CLIP特征的轻量级检测策略,发现不需要大量特定领域数据集训练,仅利用少量示例图像即可展现出泛化能力,并在商业工具中具有高鲁棒性。在分布内数据上与SoTA相匹配,并在分布外数据和受损/清洗数据上实现了显著改进。
MAX Engine是一个高性能的AI编译器和运行时,通过图级优化实现了低延迟和高吞吐量的推理。在ImageNet数据集上,相对于原生TensorFlow执行,MAX Engine获得了2.4倍的推理性能提升,同时保持高准确性。
本文研究了深度学习医学成像应用中使用自然图像数据集进行迁移学习的方法,发现迁移学习对性能提升有限,简单轻量级模型可与ImageNet架构相当。同时探讨了迁移的权重尺度独立特性和对更高效模型探索的意义。
介绍了基于Mamba的新模型Swin-UMamba,用于医学图像分割任务。实验证明,基于ImageNet的预训练对模型性能提升很重要。Swin-UMamba在AbdomenMRI、Encoscopy和Microscopy数据集上表现出色,平均得分比最接近的模型高出3.58%。
Spikformer是一种结合了自注意力和脉冲神经网络的SNN设计架构,使用脉冲自注意力模块混合稀疏视觉特征,并通过线性变换加速。实验结果显示,具有线性变换的Spikformer在图像分类方面具有更高的准确率和更快的速度。
本文介绍了一种生成鲁棒分类器的方法,利用随机生成建模和条件分布采样。通过添加高斯噪声和预训练扩散过程,该方法在CIFAR-10数据集上表现出可观的鲁棒性,优于主要的防御方法。
完成下面两步后,将自动完成登录并继续当前操作。