小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Zyphra发布Zamba2-VL:混合Mamba2-Transformer视觉语言模型

Zyphra发布了Zamba2-VL系列开放视觉语言模型,包含12亿、27亿和70亿参数。该模型采用混合SSM-Transformer架构,支持图像与文本的理解与关联,推理速度快,适用于文档提取和库存盘点等场景。尽管在知识推理方面表现不如大型模型,但在视觉计数和文档理解上具有优势。模型权重和推理代码已公开。

Zyphra发布Zamba2-VL:混合Mamba2-Transformer视觉语言模型

实时互动网
实时互动网 · 2026-06-15T02:50:06Z
麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet,生成150万个多样化图表样本

ChartNet是由麻省理工学院等机构开发的高质量多模态数据集,包含150万个图表样本,涵盖24种图表类型,旨在提升AI对图表的理解能力。该数据集支持图表重建、数据提取和摘要生成等任务。研究表明,微调模型在ChartNet上表现优于现有大型模型,推动了视觉语言模型在图表理解领域的进步。

麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet,生成150万个多样化图表样本

HyperAI超神经
HyperAI超神经 · 2026-06-11T09:29:01Z
深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

三维空间感知是自动驾驶和机器人领域的核心能力,旨在从二维图像恢复真实世界的空间结构。Meta与普林斯顿大学提出的VLM³框架,基于标准视觉语言模型,统一了物体级三维理解和公制深度估计等任务,显著提升了模型在细粒度三维感知中的表现。研究表明,通用视觉语言模型在三维表征能力上超出预期,为三维视觉领域的统一基础模型提供了新依据。

深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

HyperAI超神经
HyperAI超神经 · 2026-06-08T08:06:39Z
Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列,通过共享权重实现推理与动作的耦合,提升机器人控制效率。该模型采用可学习的动作分词器和视觉记忆模块,优化动作生成过程,减少离散化负担,能够在零样本条件下分解任务,直接生成动作,增强对复杂场景的适应能力。

Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

结构之法 算法之道
结构之法 算法之道 · 2026-06-04T10:18:09Z
麻省理工学院研究人员教AI模型解读图表

MIT和IBM研究人员开发了ChartNet数据集,包含超过一百万种多样化图表,旨在提升视觉语言模型对图表的理解能力。该数据集通过合成数据生成,帮助小型企业利用AI进行商业趋势分析和科学数据解读。研究表明,使用ChartNet训练的开源模型在图表提取和总结任务上优于大型商业模型。

麻省理工学院研究人员教AI模型解读图表

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) · 2026-06-03T04:00:00Z
GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

GR00T N1.6和N1.7是NVIDIA开发的视觉语言模型(VLM),用于机器人控制。N1.6改进了模型结构,支持灵活分辨率,并引入新数据集;N1.7在此基础上增强了模型的泛化能力,并在大量人类视频数据上进行预训练,提高了机器人控制的精确性和效率。

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

结构之法 算法之道
结构之法 算法之道 · 2026-05-27T08:00:00Z
大华股份全新发布无人机智能巡检大模型一体机

大华股份在南京发布了无人机智能巡检大模型一体机,专注于水域安全监管。该设备结合视频AI算法和视觉语言模型,能够智能识别违章建筑和违规船只,提升巡检效率,采用双模型架构,确保实时检测与高准确性。

大华股份全新发布无人机智能巡检大模型一体机

全球TMT-美通国际
全球TMT-美通国际 · 2026-05-21T10:44:16Z
Realtime-VLA V2——如何让vla运行的更快:从让π0实时抓取下落的钢笔到让 VLA 运行得更快、更平滑且更精确

本文探讨了基于消费级GPU的实时视觉-语言模型(VLA)机器人控制技术。通过优化推理流程,推理延迟降低至27.3毫秒,抓取成功率达到100%。研究表明,VLA在机器人控制中可有效满足实时操作需求。

Realtime-VLA V2——如何让vla运行的更快:从让π0实时抓取下落的钢笔到让 VLA 运行得更快、更平滑且更精确

结构之法 算法之道
结构之法 算法之道 · 2026-05-20T06:41:47Z
解决“打地鼠困境”:一种更智能的去偏见AI视觉模型的方法

WRING是一种新型去偏见技术,通过调整模型中特定坐标的表示方式,减少目标概念的偏见,同时不增加其他领域的偏见。该方法高效且无需重新训练模型,适用于视觉语言模型(VLM),如CLIP模型。研究表明,WRING在减少偏见方面效果显著。

解决“打地鼠困境”:一种更智能的去偏见AI视觉模型的方法

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-04-29T21:40:00Z
你的logit值知道什么?(答案可能会让你惊讶!)

本文探讨了模型内部信息的探测及其潜在的信息泄露风险。通过对视觉语言模型的研究,比较了不同表示层级的信息保留情况,发现顶级logit值可能泄露与任务无关的信息。此外,文章讨论了静态残差变换在自回归生成中的效率与生成质量之间的权衡。

你的logit值知道什么?(答案可能会让你惊讶!)

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-20T00:00:00Z

该示例展示了如何使用vLLM在视觉语言模型上进行离线推理,处理多图像输入并生成文本,利用模型定义的对话模板。

【vLLM 学习】Vision Language Multi Image

HyperAI超神经
HyperAI超神经 · 2026-03-24T06:44:00Z
SafetyPairs:通过反事实图像生成隔离安全关键图像特征

本文介绍了SafetyPairs框架,生成仅在安全特征上不同的图像对,以区分安全与不安全的图像。通过图像编辑模型进行针对性修改,构建了一个包含3020个图像的安全基准,提升了视觉语言模型的评估能力,并改善了轻量级模型的训练效率。

SafetyPairs:通过反事实图像生成隔离安全关键图像特征

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-24T00:00:00Z
TrajTok:学习轨迹标记以提升视频理解

TrajTok是一种视频标记模块,通过动态调整标记粒度,解决视频模型中的标记冗余问题。它集成了统一的分割器,能够高效生成对象轨迹,提升视频理解性能。在分类和检索基准测试中表现优异,可作为预训练视觉特征的探测头或视觉-语言模型的连接器。

TrajTok:学习轨迹标记以提升视频理解

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-17T00:00:00Z
一种更好的复杂视觉任务规划方法

麻省理工学院的研究人员开发了一种基于生成性人工智能的长期视觉任务规划方法,成功率约为70%。该系统结合视觉-语言模型与正式规划能力,能够处理复杂视觉输入并生成有效规划,适用于多种实际应用。

一种更好的复杂视觉任务规划方法

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-03-11T04:00:00Z

本文介绍了如何使用vLLM进行离线推理,特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置,以确保在不同GPU上有效运行。

【vLLM 学习】Vision Language

HyperAI超神经
HyperAI超神经 · 2026-03-09T02:10:53Z

微软与清华提出BiPS模型,通过训练阶段教会模型关注关键视觉细节,解决视觉-语言模型在推理中的错误。BiPS利用“拉”和“推”机制,提升视觉理解能力,使模型在复杂任务中更准确地识别信息,推动通用智能的发展。

AI看图一本正经胡说八道?「一拉一推」让模型看得全又准|微软x清华

量子位
量子位 · 2026-02-08T06:08:46Z
MetaWorld——分层世界模型:融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验,及基于模型RL的对动态环境的在线自适应

本文介绍了MetaWorld,一个基于分层世界模型的机器人控制框架,旨在弥合高层语义理解与低层物理执行之间的鸿沟。该框架结合视觉-语言模型、模仿学习和强化学习的优势,通过分层架构进行任务解析和动作生成,提升机器人在动态环境中的适应性和泛化能力。

MetaWorld——分层世界模型:融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验,及基于模型RL的对动态环境的在线自适应

结构之法 算法之道
结构之法 算法之道 · 2026-02-07T10:14:29Z
“See_you“:“Next Moment“

未来,PaddleFormers将降低多模态模型的训练门槛,帮助开发者构建实际业务能力,推动多模态模型在更多场景中的应用。随着能力的提升,视觉语言模型将更好地理解和定位世界,PaddleFormers提供高效的训练工具,便于模型的微调与扩展。

“See_you“:“Next Moment“

百度大脑
百度大脑 · 2026-01-23T11:50:49Z
如何在自己的数据上对嵌入模型进行基准测试

选择合适的嵌入模型并不简单,但可以通过定制基准测试来改善。新课程教你如何利用视觉语言模型和大型语言模型进行文本提取和评估,克服Python库的局限性,生成评估问题,创建数据向量表示,并使用ranx库进行基准测试和可视化。

如何在自己的数据上对嵌入模型进行基准测试

freeCodeCamp.org
freeCodeCamp.org · 2026-01-15T15:49:38Z
GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术

GraspVLA是一种基于十亿级合成抓取数据集的机器人抓取模型,结合视觉语言模型和动作生成机制,提升了抓取技能的泛化能力。该模型通过渐进式动作生成方法,实现了仿真到现实的迁移,展现出优异的零样本性能。

GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术

结构之法 算法之道
结构之法 算法之道 · 2026-01-06T15:36:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码