小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

本文介绍了LARYBench,一个用于评估隐式动作表征的基准系统,旨在提升机器人在不同环境中的泛化能力。LARYBench分析了大规模人类视频数据,提供超过一百万段标注视频,涵盖151种动作,支持多样化的机器人形态和操作场景。实验结果表明,通用视觉模型在动作泛化和控制精度上优于专门模型,强调了隐式动作表征的重要性。

LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

美团技术团队
美团技术团队 · 2026-04-27T00:00:00Z
链式草图:促进全球视觉推理

本文介绍了一种名为“链式草图”(CoS)的方法,旨在提高视觉模型在全球推理任务中的学习效率。研究发现,现有的大型视觉模型和多模态语言模型在这些任务上表现不佳。CoS通过将复杂任务分解为中间视觉步骤,帮助模型更好地学习。同时,引入的“归纳CoS”结构在小模型中也能实现更好的泛化能力。

链式草图:促进全球视觉推理

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-10T00:00:00Z

近两年,AI迅速发展,普通人主要应用于对话和生图。文章介绍了AI大模型的类型,包括语言模型、向量模型、视觉模型和多模态模型,以及获取和使用的方法。熟练掌握AI将成为未来必备技能。

2025小白AI入门指南!从如何白嫖到如何使用,一文入门

熊猫不是猫QAQ
熊猫不是猫QAQ · 2025-12-07T14:49:59Z

认知科学家收集了包含数百万个“奇异物体”判断的THINGS数据集,但仅使用几千张图像进行微调,导致模型过拟合并遗忘先前技能。

教人工智能更像我们一样看待世界

Google DeepMind Blog
Google DeepMind Blog · 2025-11-11T11:49:13Z

最新研究表明,视觉模型与人脑的相似性受模型大小、训练数据量和图像类型的影响。DINOv3模型在训练中逐步与人脑表征一致,尤其在使用人类相关图像时效果最佳。研究发现,模型学习的表征层级与大脑结构高度一致,不同特征的出现速度也存在差异。

最新研究揭示视觉模型与人脑的对齐机制

量子位
量子位 · 2025-09-02T04:57:59Z

Ollama社区在五月发布了三项重要更新,推出了多模态引擎,支持视觉模型,提升了AI能力和用户体验。同时新增工具调用功能和“思考”模式,增强了交互性和透明度。这些更新进一步推动了Ollama在本地化AI领域的发展。

Ollama 五月更新解读:多模态、工具调用、模型思考,AI 本地化再进一步!

路边的阿不
路边的阿不 · 2025-06-06T08:28:37Z

该研究提出了FORTRESS框架,旨在解决大型视觉和语言模型在处理分布外故障时的推理延迟问题,实时生成安全后备策略,从而提高系统安全性和规划成功率。

Real-time Out-of-Distribution Fault Prevention through Multimodal Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究提出了VISLIX框架,用于验证视觉模型,解决数据切片方法中的挑战,如缺乏图像元数据。VISLIX能够自动生成自然语言洞察,支持用户与数据切片假设的互动测试,从而提升对象检测模型的验证过程。

VISLIX: An Explainable AI Framework for Validating Vision Models through Slice Discovery and Analysis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究提出了Seg2HOI框架,结合视觉模型与人机交互任务,能够有效生成分割掩膜的四元组,其性能与先进方法相当,具有良好的应用潜力。

基于基础模型的人机交互预测框架与分割掩膜集成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z
卷积网络又双叒叕行了?OverLoCK:一种仿生的卷积神经网络视觉基础模型

香港大学研究团队提出的新型视觉基础模型OverLoCK,结合了人类视觉的“纵观全局-聚焦细节”机制。在多个数据集上表现优异,特别是在ImageNet-1K上达到84.2%的准确率,超越现有卷积网络和Transformer,展现出强大的动态建模能力。

卷积网络又双叒叕行了?OverLoCK:一种仿生的卷积神经网络视觉基础模型

机器之心
机器之心 · 2025-03-30T09:18:17Z

本研究提出了LEAVS,一个针对腹部CT报告的标注器,能够为九个腹部器官标注七种异常,其性能显著优于其他标注器和人类,提取的标签可用于训练视觉模型。

LEAVS: A Large Language Model-Based Supervised Annotator for Abdominal CT Reports

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究提出CREStE方法,解决长距离无地图导航问题,使机器人在新环境中无需高精度地图。该方法利用互联网规模数据训练的视觉模型,学习环境特征,并通过反事实损失和主动学习进行路径规划,显著提高导航效果,减少70%人为干预。

CREStE:使用互联网规模先验知识和反事实指导的可扩展无地图导航

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-05T00:00:00Z
🤖 Open-CUAK:‘OpenAI Operator’ 现已开源!👥

Open-CUAK是一个开源替代OpenAI Operator的产品,支持本地托管,适用于多种视觉模型,提供可靠的自动化解决方案,帮助用户高效管理和监控任务,避免高昂的SaaS费用。

🤖 Open-CUAK:‘OpenAI Operator’ 现已开源!👥

DEV Community
DEV Community · 2025-02-20T02:05:21Z

该研究探讨了视觉模型在时间序列分析中的应用,介绍了将时间序列编码为图像的建模方法,分析了预处理和后处理的挑战及未来发展方向。

利用视觉模型进行时间序列分析:综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z
阿里云通义开源Qwen2.5-VL,视觉理解能力全面超越GPT-4o

阿里云发布的新视觉模型Qwen2.5-VL包含三个版本,旗舰版在13项评测中超越GPT-4o和Claude3.5。该模型能够准确解析图像和视频,支持复杂操作,如发送祝福和订票,并在视觉理解、文档解析和动态视频处理方面有显著提升,开发者可基于此模型创建AI智能体。

阿里云通义开源Qwen2.5-VL,视觉理解能力全面超越GPT-4o

机器之心
机器之心 · 2025-01-28T09:34:33Z

本研究提出了一种新颖的Group Sparse LoRA (GS-LoRA)方法,有效解决了在隐私和安全方面删除预训练视觉模型中不必要信息的问题。实验结果表明,该方法在面部识别、物体检测和图像分类任务中实现了信息遗忘,影响最小。

Practical Continuous Forgetting in Pre-trained Visual Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z

本研究探讨了数据集多样性对视觉模型性能的影响,发现准确性与数据多样性之间存在显著正相关,强调了理解数据集在构建更强大、可泛化模型中的重要性。

Exploring the Efficacy of Meta-Learning: Unveiling the Superior Utilization of Data Diversity in MAML Compared to Pre-training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-15T00:00:00Z
使用EmbedAnything与ColPali优化视觉语言模型令牌

ColPali是一种视觉模型,支持在图像中进行文本搜索,快速定位PDF中的相关页面。为降低计算需求,开发了可量化的onnx版本。Vision RAG通过将图像存储为多向量嵌入,简化信息检索,避免了传统RAG的文本分块问题。使用EmbedAnything库,可以将PDF转换为多向量嵌入并计算查询相似度。

使用EmbedAnything与ColPali优化视觉语言模型令牌

DEV Community
DEV Community · 2025-01-12T12:38:49Z
智源发布FlagEval「百模」评测结果,丈量模型生态变局

智源研究院发布2024年大模型评测结果,涵盖语言和视觉等多模态模型。新增金融量化交易能力,显示国内模型在复杂任务上仍有差距。字节跳动和百度的语言模型表现突出,视觉模型逐渐缩小与闭源模型的差距,但仍需提升。整体来看,大模型能力明显提升,但实际应用中仍需改进。

智源发布FlagEval「百模」评测结果,丈量模型生态变局

机器之心
机器之心 · 2024-12-20T05:43:38Z
使用.NET Aspire比较开源视觉模型在照片描述任务中的表现

本文探讨如何选择最佳视觉模型生成照片摘要,使用OpenAI的GPT-4o进行评估。评估了六种开源视觉模型,建立了评估流程并将结果存储在MongoDB中。最终发现llava:13b模型表现最佳,平均得分85.6。该方法提供了系统化的评估框架,便于比较模型性能。

使用.NET Aspire比较开源视觉模型在照片描述任务中的表现

DEV Community
DEV Community · 2024-12-16T07:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码