小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet,生成150万个多样化图表样本

ChartNet是由麻省理工学院等机构开发的高质量多模态数据集,包含150万个图表样本,涵盖24种图表类型,旨在提升AI对图表的理解能力。该数据集支持图表重建、数据提取和摘要生成等任务。研究表明,微调模型在ChartNet上表现优于现有大型模型,推动了视觉语言模型在图表理解领域的进步。

麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet,生成150万个多样化图表样本

HyperAI超神经
HyperAI超神经 · 2026-06-11T09:29:01Z
深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

三维空间感知是自动驾驶和机器人领域的核心能力,旨在从二维图像恢复真实世界的空间结构。Meta与普林斯顿大学提出的VLM³框架,基于标准视觉语言模型,统一了物体级三维理解和公制深度估计等任务,显著提升了模型在细粒度三维感知中的表现。研究表明,通用视觉语言模型在三维表征能力上超出预期,为三维视觉领域的统一基础模型提供了新依据。

深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

HyperAI超神经
HyperAI超神经 · 2026-06-08T08:06:39Z
Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列,通过共享权重实现推理与动作的耦合,提升机器人控制效率。该模型采用可学习的动作分词器和视觉记忆模块,优化动作生成过程,减少离散化负担,能够在零样本条件下分解任务,直接生成动作,增强对复杂场景的适应能力。

Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

结构之法 算法之道
结构之法 算法之道 · 2026-06-04T10:18:09Z
麻省理工学院研究人员教AI模型解读图表

MIT和IBM研究人员开发了ChartNet数据集,包含超过一百万种多样化图表,旨在提升视觉语言模型对图表的理解能力。该数据集通过合成数据生成,帮助小型企业利用AI进行商业趋势分析和科学数据解读。研究表明,使用ChartNet训练的开源模型在图表提取和总结任务上优于大型商业模型。

麻省理工学院研究人员教AI模型解读图表

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) · 2026-06-03T04:00:00Z
GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

GR00T N1.6和N1.7是NVIDIA开发的视觉语言模型(VLM),用于机器人控制。N1.6改进了模型结构,支持灵活分辨率,并引入新数据集;N1.7在此基础上增强了模型的泛化能力,并在大量人类视频数据上进行预训练,提高了机器人控制的精确性和效率。

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

结构之法 算法之道
结构之法 算法之道 · 2026-05-27T08:00:00Z
大华股份全新发布无人机智能巡检大模型一体机

大华股份在南京发布了无人机智能巡检大模型一体机,专注于水域安全监管。该设备结合视频AI算法和视觉语言模型,能够智能识别违章建筑和违规船只,提升巡检效率,采用双模型架构,确保实时检测与高准确性。

大华股份全新发布无人机智能巡检大模型一体机

全球TMT-美通国际
全球TMT-美通国际 · 2026-05-21T10:44:16Z
解决“打地鼠困境”:一种更智能的去偏见AI视觉模型的方法

WRING是一种新型去偏见技术,通过调整模型中特定坐标的表示方式,减少目标概念的偏见,同时不增加其他领域的偏见。该方法高效且无需重新训练模型,适用于视觉语言模型(VLM),如CLIP模型。研究表明,WRING在减少偏见方面效果显著。

解决“打地鼠困境”:一种更智能的去偏见AI视觉模型的方法

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-04-29T21:40:00Z
你的logit值知道什么?(答案可能会让你惊讶!)

本文探讨了模型内部信息的探测及其潜在的信息泄露风险。通过对视觉语言模型的研究,比较了不同表示层级的信息保留情况,发现顶级logit值可能泄露与任务无关的信息。此外,文章讨论了静态残差变换在自回归生成中的效率与生成质量之间的权衡。

你的logit值知道什么?(答案可能会让你惊讶!)

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-20T00:00:00Z

该示例展示了如何使用vLLM在视觉语言模型上进行离线推理,处理多图像输入并生成文本,利用模型定义的对话模板。

【vLLM 学习】Vision Language Multi Image

HyperAI超神经
HyperAI超神经 · 2026-03-24T06:44:00Z
SafetyPairs:通过反事实图像生成隔离安全关键图像特征

本文介绍了SafetyPairs框架,生成仅在安全特征上不同的图像对,以区分安全与不安全的图像。通过图像编辑模型进行针对性修改,构建了一个包含3020个图像的安全基准,提升了视觉语言模型的评估能力,并改善了轻量级模型的训练效率。

SafetyPairs:通过反事实图像生成隔离安全关键图像特征

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-24T00:00:00Z

本文介绍了如何使用vLLM进行离线推理,特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置,以确保在不同GPU上有效运行。

【vLLM 学习】Vision Language

HyperAI超神经
HyperAI超神经 · 2026-03-09T02:10:53Z
“See_you“:“Next Moment“

未来,PaddleFormers将降低多模态模型的训练门槛,帮助开发者构建实际业务能力,推动多模态模型在更多场景中的应用。随着能力的提升,视觉语言模型将更好地理解和定位世界,PaddleFormers提供高效的训练工具,便于模型的微调与扩展。

“See_you“:“Next Moment“

百度大脑
百度大脑 · 2026-01-23T11:50:49Z
如何在自己的数据上对嵌入模型进行基准测试

选择合适的嵌入模型并不简单,但可以通过定制基准测试来改善。新课程教你如何利用视觉语言模型和大型语言模型进行文本提取和评估,克服Python库的局限性,生成评估问题,创建数据向量表示,并使用ranx库进行基准测试和可视化。

如何在自己的数据上对嵌入模型进行基准测试

freeCodeCamp.org
freeCodeCamp.org · 2026-01-15T15:49:38Z
GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术

GraspVLA是一种基于十亿级合成抓取数据集的机器人抓取模型,结合视觉语言模型和动作生成机制,提升了抓取技能的泛化能力。该模型通过渐进式动作生成方法,实现了仿真到现实的迁移,展现出优异的零样本性能。

GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术

结构之法 算法之道
结构之法 算法之道 · 2026-01-06T15:36:00Z
Midscene.js - 一个基于视觉语言模型的跨平台UI自动化框架,使用…

Midscene.js是一个跨平台的UI自动化框架,利用视觉语言模型进行视觉定位和交互。它支持自然语言描述自动化目标,提供JavaScript SDK和YAML脚本,适用于Web、Android和iOS,适合端到端UI测试和操作任务自动化,降低维护成本。

Midscene.js - 一个基于视觉语言模型的跨平台UI自动化框架,使用…

云原生
云原生 · 2025-12-26T10:34:26Z
低门槛试用Open-AutoGLM:屏幕理解+自动执行的智能体体验;Spatial-SSRL-81k构建空间感知的自监督提升路径

智谱AI推出手机端智能助理框架Open-AutoGLM,利用视觉语言模型实现屏幕内容的深度理解与自动化操作。用户可通过自然语言指令完成任务,系统确保安全性并支持远程调试,已覆盖50余款主流应用,逐步成为全场景智能助手。

低门槛试用Open-AutoGLM:屏幕理解+自动执行的智能体体验;Spatial-SSRL-81k构建空间感知的自监督提升路径

HyperAI超神经
HyperAI超神经 · 2025-12-15T07:10:51Z
2.5亿美元的文件

Coinbase、MSCI和Zscaler等公司的工程团队利用Resolve AI的AI SRE工具,使平均修复时间(MTTR)提高了5倍,开发效率提升了75%。Molmo是一种新型视觉语言模型,基于PixMo数据集,解决了现有模型的依赖问题,增强了视觉理解和推理能力。

2.5亿美元的文件

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-12-10T16:30:49Z
BALROG - A benchmark suite for evaluating agentic large language models and …

BALROG是一个开源基准套件,用于评估大语言模型(LLM)和视觉语言模型(VLM)在游戏任务中的推理与决策能力。它通过设计游戏任务和评测指标,帮助研究者比较不同模型的表现,支持模型选择与微调。该套件基于Python实现,采用模块化架构,关注决策过程的可测量性,并支持跨模态推理能力的评估。

BALROG - A benchmark suite for evaluating agentic large language models and …

云原生
云原生 · 2025-12-08T13:29:00Z
Jina-VLM:小型多语言视觉语言模型

jina-vlm是一个具有2.4B参数的视觉语言模型,支持29种语言的视觉问答,性能优越,适合消费级硬件。它结合了SigLIP2视觉编码器和Qwen3语言骨干,在多语言理解和视觉推理方面表现出色,并通过高效的注意力池化连接器减少视觉标记数量,保持多语言能力。

Jina-VLM:小型多语言视觉语言模型

Jina AI
Jina AI · 2025-12-04T18:57:53Z
百度出招!OCR模型PaddleOCR-VL打破管道与端到端方法局限;面部情感识别数据集Facial Emotion Recognition,赋能 AI 读懂表情

百度推出PaddleOCR-VL模型,结合视觉语言模型,支持109种语言,能够高效识别文本和表格等元素,资源消耗低,适合实际应用。

百度出招!OCR模型PaddleOCR-VL打破管道与端到端方法局限;面部情感识别数据集Facial Emotion Recognition,赋能 AI 读懂表情

HyperAI超神经
HyperAI超神经 · 2025-11-25T06:07:47Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码