Saronic Technologies’ autonomous surface vessels are ushering in a new era for maritime in the United States. Cofounder and CEO Dino Mavrookas discusses the company’s mission and approach.
本文讨论了自监督视觉模型DINO及其在目标检测中的应用,重点介绍了Grounding DINO和DINO-X。Grounding DINO通过语言信息将闭集检测器扩展到开放集场景,采用双编码器-单解码器架构,结合图像和文本特征进行对象检测,创新设计了特征提取、增强和查询选择等方面,以提升检测性能。
Grounding-Dino是由Adirik维护的AI模型,能够通过文本输入检测图像中的物体。它结合了DINO检测器和基础预训练,支持开放词汇和文本引导的物体检测,输出带有边界框和标签的结果。
港大马毅团队推出SimDINO和SimDINOv2,通过编码率正则化简化DINO系列模型的训练流程,提升了模型的鲁棒性和性能。这些新模型去除了复杂的后处理步骤,使训练更简单且效果更佳,体现了“简单即是美”的设计理念。实验结果显示,SimDINO系列在多个任务上优于DINO,具备更高的计算效率和稳定性。
DINO和DINOv2模型用于从未标记图像中学习特征,但训练复杂且不稳定。SimDINO和SimDINOv2通过引入编码率正则化项,简化了训练过程,提高了稳定性和效率,表现优于前者,适合视觉自监督学习。
本文解决了DINO及DINOv2模型在无标记图像数据学习中的复杂性和不稳定性问题。通过在损失函数中引入显式的编码率项,提出了简化版本SimDINO和SimDINOv2,这些模型在不同设计选择下表现出更高的鲁棒性,且在下游任务上学习到了更高质量的表征,展示了简化设计原则在深度学习中的潜力。
DINO是一种自监督学习方法,通过知识蒸馏提升视觉Transformer的特征质量。它动态构建教师网络,利用学生网络输出进行训练,优化图像特征学习。DINO采用多裁剪策略和温度softmax,提升模型性能。
本研究针对CLIP在细粒度任务中的视觉特征不足问题,提出了一种无标签提示调整方法,利用自监督学习模型DINO的丰富视觉特征和大型语言模型的广泛文本知识,显著提升了基于CLIP的图像分类性能。研究结果表明,提出的NoLA框架在11个多样化的图像分类数据集上,相较于当前最先进的无标签分类方法LaFter平均提升3.6%。
本研究解决了开放词汇分割中图像与自由形式文本概念的分割问题,现有模型在空间定位方面存在困难。我们提出的Talk2DINO方法,结合了DINOv2的空间精确性与CLIP的语言理解,利用注意力图选择性地将视觉补丁与文本嵌入对齐,显著提高了分割质量及前景与背景的区分能力。实验结果表明,Talk2DINO在多个无监督OVS基准测试中表现优异。
本文提出DINO-X模型,旨在提升开放世界物体检测的性能。通过扩展输入选项和构建大规模数据集,DINO-X显著增强了对长尾物体的识别能力,实验结果在多个基准测试中表现优异。
本研究提出了一种新的注意力动态 DINO 框架,有效解决智能体在不同交互上下文中对手势和语言描述的误解问题,显著提升任务性能,尤其在 IoU 阈值为 0.75 时超越人类表现。
本研究提出DINO-LG模型,通过自监督学习提高冠状动脉钙化评分的准确性,专注于钙化区域,显著改善评分和分割性能,为冠状动脉疾病的预防提供更精确的工具。
该研究提出DINO-WM方法,利用DINOv2特征从离线轨迹中学习,解决世界模型学习的挑战,实现无任务依赖的行为规划,展现出良好的适应性和推广性。
本研究探讨了多模态大型语言模型中不同视觉编码器的有效性,发现CLIP在细粒度任务中表现优异,而DINO经过简单对齐后也展现出良好性能。研究提出的特征融合策略COMM有效结合了CLIP和DINO,显著提升了MLLMs的视觉能力。
文章介绍了一个高效的鞋服图片搜索系统,利用Amazon SageMaker和OpenSearch,实现低延迟、高精度搜索。通过目标检测和图像分割,系统能识别并剪切目标物品,提升搜索准确性。使用DINO模型预训练和微调,增强召回能力。实验显示,系统在前5个结果中达到85%准确率,适用于电商和医疗等行业。
研究发现,在多模态大型语言模型中,CLIP的浅层特征在细粒度任务中有优势。未经过文本-图像对齐预训练的DINO加上MLP层后表现优于CLIP。基于此,提出COMM策略,通过融合CLIP和DINO的特征提升视觉能力,实验结果显示其性能优越。
DiNO-Diffusion方法使用自监督学习训练潜在扩散模型,在医学影像领域展示了广泛的覆盖范围。它能够生成多样且小规模的合成数据集,通过数据增强提高了分类性能20%。此外,DiNO-Diffusion表现出良好的零样本分割性能和图像解剖对齐能力,可应用于其他医学影像模态或高级扩散模型,为医学影像领域的大规模多领域图像生成提供了可能性。
研究发现自监督视觉预训练对像素学习运动控制任务有效。作者提出手工设计的基准任务,包括运动、场景和机器人等方面的变化。实验结果显示,通过视觉编码器和强化学习,成功率高达80%,能与理论最好状态匹敌。野外图像如YouTube和自我中心视频在各操作任务的视觉表现上优于ImageNet图像。
研究了基于便宜的输入提示的视觉任务基础模型SAM,发现其在零样本图像分割准确性上表现良好,但在航空图像问题中有时会失败。
DINO-vMF 使用混合模型的方法改进了 DINO 的集群分配概率计算,对于较大的 ViT-Base 模型也更加稳定且在各种下游任务中表现更好,提供了更好的图像表示。
完成下面两步后,将自动完成登录并继续当前操作。