Saronic Technologies’ autonomous surface vessels are ushering in a new era for maritime in the United States. Cofounder and CEO Dino Mavrookas discusses the company’s mission and approach.
本文讨论了自监督视觉模型DINO及其在目标检测中的应用,重点介绍了Grounding DINO和DINO-X。Grounding DINO通过语言信息将闭集检测器扩展到开放集场景,采用双编码器-单解码器架构,结合图像和文本特征进行对象检测,创新设计了特征提取、增强和查询选择等方面,以提升检测性能。
Grounding-Dino是由Adirik维护的AI模型,能够通过文本输入检测图像中的物体。它结合了DINO检测器和基础预训练,支持开放词汇和文本引导的物体检测,输出带有边界框和标签的结果。
港大马毅团队推出SimDINO和SimDINOv2,通过编码率正则化简化DINO系列模型的训练流程,提升了模型的鲁棒性和性能。这些新模型去除了复杂的后处理步骤,使训练更简单且效果更佳,体现了“简单即是美”的设计理念。实验结果显示,SimDINO系列在多个任务上优于DINO,具备更高的计算效率和稳定性。
DINO和DINOv2模型用于从未标记图像中学习特征,但训练复杂且不稳定。SimDINO和SimDINOv2通过引入编码率正则化项,简化了训练过程,提高了稳定性和效率,表现优于前者,适合视觉自监督学习。
本文解决了DINO及DINOv2模型在无标记图像数据学习中的复杂性和不稳定性问题。通过在损失函数中引入显式的编码率项,提出了简化版本SimDINO和SimDINOv2,这些模型在不同设计选择下表现出更高的鲁棒性,且在下游任务上学习到了更高质量的表征,展示了简化设计原则在深度学习中的潜力。
DINO是一种自监督学习方法,通过知识蒸馏提升视觉Transformer的特征质量。它动态构建教师网络,利用学生网络输出进行训练,优化图像特征学习。DINO采用多裁剪策略和温度softmax,提升模型性能。
本研究针对CLIP在细粒度任务中的视觉特征不足问题,提出了一种无标签提示调整方法,利用自监督学习模型DINO的丰富视觉特征和大型语言模型的广泛文本知识,显著提升了基于CLIP的图像分类性能。研究结果表明,提出的NoLA框架在11个多样化的图像分类数据集上,相较于当前最先进的无标签分类方法LaFter平均提升3.6%。
本研究解决了开放词汇分割中图像与自由形式文本概念的分割问题,现有模型在空间定位方面存在困难。我们提出的Talk2DINO方法,结合了DINOv2的空间精确性与CLIP的语言理解,利用注意力图选择性地将视觉补丁与文本嵌入对齐,显著提高了分割质量及前景与背景的区分能力。实验结果表明,Talk2DINO在多个无监督OVS基准测试中表现优异。
本文介绍了DINO-X,一个统一的物体中心视觉模型,旨在提升开放世界物体检测的性能。通过扩大输入选项和构建大规模数据集,DINO-X显著提高了对长尾物体的识别能力,并在多个基准测试中表现优异。
本研究提出了一种新的注意力动态 DINO 框架,有效解决智能体在不同交互上下文中对手势和语言描述的误解问题,显著提升任务性能,尤其在 IoU 阈值为 0.75 时超越人类表现。
本研究提出DINO-LG模型,通过自监督学习提高冠状动脉钙化评分的准确性,专注于钙化区域,显著改善评分和分割性能,为冠状动脉疾病的预防提供更精确的工具。
本研究提出了多种基于世界模型的视觉预测和规划方法,结合深度强化学习、无监督学习和合成数据训练等技术,显著提升了机器人在复杂环境中的操作效率和适应能力。
该研究提出了MMICL模型,旨在解决图像与文本的多模态提示问题,提升视觉-语言模型的性能。通过结合CLIP和DINO的特征,提出了COMM策略,增强了模型的视觉能力。实验结果表明,MMICL在复杂推理任务中表现优异,有效缓解了语言偏差问题,展现了在多模态基准测试中的竞争力。
文章介绍了一个高效的鞋服图片搜索系统,利用Amazon SageMaker和OpenSearch,实现低延迟、高精度搜索。通过目标检测和图像分割,系统能识别并剪切目标物品,提升搜索准确性。使用DINO模型预训练和微调,增强召回能力。实验显示,系统在前5个结果中达到85%准确率,适用于电商和医疗等行业。
该研究介绍了多种基于扩散模型的医学影像生成技术,包括无监督生成X光图像、语义3D医学图像合成和去噪MRI方法。这些模型通过优化计算资源和提高训练效率,解决了医学成像中的数据稀缺和隐私问题,展示了医学图像合成的潜力。
本文介绍了一种基于自监督学习的计算机视觉模型BC-ViT,该模型利用DINO预训练视觉变换器,通过模仿学习提高泛化能力。此外,研究提出了PPGeo框架,以解决样本不足问题,并在多任务视觉任务中取得显著进展。
本文评估了Segment Anything Model(SAM)在医学图像分割中的表现,发现其性能受任务和数据集影响较大。尽管在CT数据上表现良好,但仍需结合手动标注以提高效果,呼吁进一步探索SAM在医学领域的应用潜力。
DINO-vMF 使用混合模型的方法改进了 DINO 的集群分配概率计算,对于较大的 ViT-Base 模型也更加稳定且在各种下游任务中表现更好,提供了更好的图像表示。
本文介绍了多个先进的物体检测模型,包括 MM-Grounding-DINO、DINO、Mask DINO 和 OmDet-Turbo,强调了它们在不同数据集上的优越性能和实时检测能力。同时,研究探讨了 Focal-Stable-DINO 和 DE-ViT 模型在医学影像和开放集检测中的应用,展示了其在疾病分类和对象定位任务中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。