小红花·文摘 - 小红花技术领袖俱乐部

Gemma 4是谷歌DeepMind推出的文档解析工具，能够处理扫描和数字PDF，提取发票信息。它通过将PDF页面渲染为高分辨率图像，利用视觉语言模型读取内容，克服传统文本提取工具的局限性。该工具支持灵活的视觉令牌预算，以适应不同文档的复杂性，确保高效准确的提取。

使用Gemma 4进行零样本本地文档解析：将PDF视为图像

KDnuggets ·

LensVLM：用于文本压缩视觉表示的选择性上下文扩展

LensVLM：用于文本压缩视觉表示的选择性上下文扩展

Apple Machine Learning Research ·

关于强化学习微调视觉语言模型的鲁棒性与思维连贯性

关于强化学习微调视觉语言模型的鲁棒性与思维连贯性

Apple Machine Learning Research ·

Zyphra发布Zamba2-VL：混合Mamba2-Transformer视觉语言模型

Zyphra发布Zamba2-VL：混合Mamba2-Transformer视觉语言模型

实时互动网 ·

麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet，生成150万个多样化图表样本

麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet，生成150万个多样化图表样本

HyperAI超神经 ·

深度估计准确率冲上0.9，Meta提出VLM³，论证视觉模型天生会学3D，以Qwen3-VL-4B为基础实现多任务的统一建模

深度估计准确率冲上0.9，Meta提出VLM³，论证视觉模型天生会学3D，以Qwen3-VL-4B为基础实现多任务的统一建模

HyperAI超神经 ·

$Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)$

Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

结构之法算法之道 ·

麻省理工学院研究人员教AI模型解读图表

麻省理工学院研究人员教AI模型解读图表

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) ·

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2，且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2，且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

结构之法算法之道 ·

大华股份全新发布无人机智能巡检大模型一体机

大华股份全新发布无人机智能巡检大模型一体机

全球TMT-美通国际 ·

解决“打地鼠困境”：一种更智能的去偏见AI视觉模型的方法

解决“打地鼠困境”：一种更智能的去偏见AI视觉模型的方法

MIT News - Artificial intelligence ·

你的logit值知道什么？（答案可能会让你惊讶！）

你的logit值知道什么？（答案可能会让你惊讶！）

Apple Machine Learning Research ·

该示例展示了如何使用vLLM在视觉语言模型上进行离线推理，处理多图像输入并生成文本，利用模型定义的对话模板。

【vLLM 学习】Vision Language Multi Image

HyperAI超神经 ·

SafetyPairs：通过反事实图像生成隔离安全关键图像特征

SafetyPairs：通过反事实图像生成隔离安全关键图像特征

Apple Machine Learning Research ·

本文介绍了如何使用vLLM进行离线推理，特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置，以确保在不同GPU上有效运行。

【vLLM 学习】Vision Language

HyperAI超神经 ·

“See_you“:“Next Moment“

“See_you“:“Next Moment“

百度大脑 ·

如何在自己的数据上对嵌入模型进行基准测试

如何在自己的数据上对嵌入模型进行基准测试

freeCodeCamp.org ·

$GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型：基于渐进式动作生成PAG技术$

GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型：基于渐进式动作生成PAG技术

结构之法算法之道 ·

Midscene.js - 一个基于视觉语言模型的跨平台UI自动化框架，使用…

Midscene.js - 一个基于视觉语言模型的跨平台UI自动化框架，使用…

云原生 ·

低门槛试用Open-AutoGLM：屏幕理解+自动执行的智能体体验；Spatial-SSRL-81k构建空间感知的自监督提升路径

低门槛试用Open-AutoGLM：屏幕理解+自动执行的智能体体验；Spatial-SSRL-81k构建空间感知的自监督提升路径

HyperAI超神经 ·