李飞飞团队发布了ESI-Bench,这是一个用于评测具身空间智能的新基准。该基准要求AI主动探索以获取信息,研究显示当前AI在空间智能方面,尤其是主动探索和推理能力上仍存在不足。ESI-Bench包含3081个任务实例,覆盖人类核心空间认知能力,旨在提升AI的空间推理能力。
新方法让小模型FID也能破0.8
本文介绍了LARYBench,一个用于评估隐式动作表征的基准系统,旨在提升机器人在不同环境中的泛化能力。LARYBench分析了大规模人类视频数据,提供超过一百万段标注视频,涵盖151种动作,支持多样化的机器人形态和操作场景。实验结果表明,通用视觉模型在动作泛化和控制精度上优于专门模型,强调了隐式动作表征的重要性。
苏昊加盟复旦大学,担任浩清特聘教授,负责建设通用物理智能研究院。他是具身智能领域的领军人物,参与过ImageNet等重要项目,致力于推动AI在物理世界中的应用。苏昊强调研究院将打破学科界限,培养未来AI领军人才,推动物理智能的发展。
抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。
本文介绍了Matterport3D数据集及其仿真器,推动视觉与语言导航研究。Room-to-Room(R2R)数据集基于真实建筑,包含21,567条导航指令,旨在解决视觉语言导航中的数据孤岛问题,提供统一的研究基准。
RoboVerse是一个统一的机器人学习平台,解决了数据集和评估体系的碎片化问题。它提供MetaSim接口,支持多种仿真器,构建高质量合成数据集,并实现混合仿真,提升迁移效果。此外,平台支持遥操作和AI自动生成任务,显著提高研究效率与实验规模。
本研究分析了卷积Kolmogorov-Arnold网络(CKANs)在处理大型复杂数据集时的效率,结果显示其在小型数据集上表现尚可,但在ImageNet等大型数据集上明显不如传统卷积神经网络(CNNs),为未来CKANs的改进提供了重要参考。
本研究探讨自监督学习在ImageNet上的边际改善是否能在相似数据集上体现。评估了十二个框架在五个变体上的表现,发现优秀模型在其他数据集上的性能可能下降,呼吁对基准测试进行更全面的评估,以避免“基准彩票”现象。
本文探讨了强健模型与非强健模型的区别,分析了16个零-shot CLIP视觉编码器的表示空间。研究发现,强健模型中存在异常特征,表明其对ImageNet分布变化的鲁棒性。零-shot CLIP模型编码了更多独特概念,但与鲁棒性无关,可能与语言监督有关。这些异常特征有助于评估预训练模型的鲁棒性。
本文介绍了如何使用ImageNet数据集,包括ImageNet()函数的参数设置,如数据根目录、数据分割(训练或验证)、变换和加载器。用户需手动下载数据集并运行ImageNet()以提取数据。训练集包含1281167张图像,验证集有50000张,并提供了加载和显示图像的示例代码。
在MEET2025大会上,群核科技的唐睿博士探讨了具身智能的发展,强调其与AI的区别在于能够与物理世界互动。具身智能未来可能成为自动驾驶的延伸,具备主动服务能力。具备图形学背景的公司在模拟世界方面具有优势,推动了该领域的快速发展。
斯坦福大学的李飞飞和吴佳俊团队推出了HourVideo数据集,以评估长视频理解能力。该数据集包含500个第一人称视角的视频,时长20至120分钟,涵盖77种日常活动。实验结果表明,现有多模态模型在长视频理解方面的表现远低于人类专家,亟需改进。
该研究探讨了微调超参数的最佳实践,发现动态学习率探索效果不佳,超参数与数据集及域相似性相关。提出新的模型选择基准,强调预训练模型在小数据集下的应用及其鲁棒性问题,并建议通过改进网络结构和知识转移提升模型性能。
分形几何是通过递归迭代生成图像的数学分支。研究发现,即使只有一个分形图像,也可以进行有效的预训练。通过引入局部扰动交叉熵损失函数,可以训练神经网络对小扰动进行分类。预训练可能只是更好的权重初始化,而不是发现有用视觉概念的必要条件。这对于减少预训练数据集的规模具有重要意义。
陶哲轩在国际数学奥赛上为AI团队颁奖。Numina团队使用Python代码验证想法,通过微调、新颖解码算法和内部验证数据集,使用7B模型解决数学奥赛难题。他们还开源了约86万道题目微调数据集。Numina的目标是做出AI数学的ImageNet。
本文比较了四种视觉基础模型,发现DINO V2在语义分割任务中表现优越,强调了稳健特征提取器的重要性,并探讨了知识迁移和隐私保护方法在医学影像分析中的应用潜力。
通过脑活动识别和重建我们所看到的内容,可以深入研究生物视觉系统如何代表世界。本文介绍了 EEG-ImageNet,一个包括从 16 名受试者记录的来自 ImageNet 数据集中的 4000 个图像的新颖 EEG 数据集,该数据集为目标分类和图像重建建立了基准。实验结果表明该数据集有助于推动基于脑电图的视觉脑 - 计算机界面,理解生物系统的视觉知觉,并在改进机器视觉模型方面有潜在应用。
本研究探讨了从未标记数据中学习 K-means 聚类和深度特征表示的方法,提出了基于 Gumbel-Softmax 的梯度估计器,并通过自蒸馏和新目标函数提升了无标签图像分类的聚类准确性,最终在 ImageNet 上达到了 61.6% 的聚类精度。
该研究探讨了CLIP模型的安全性和性能,强调训练数据特性对模型的影响。通过剪枝LAION数据集,发现模型在视觉任务中的表现受多种因素影响。研究提出MetaCLIP方法,提升分类准确率,并探讨其在盲人用户中的应用潜力,发现模型对图像内容的敏感性不足。基于CLIP的检测策略显示出良好的泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。