小红花·文摘

从“养虾热”到实体交互：元萝卜推动OpenClaw走向真实世界

量子位 ·

一分钟读论文：《SemVideo：从大脑 fMRI 直接重建视频！读心术真的来了？》

Micropaper ·

抖音SAIL团队与LV-NUS Lab联合推出的SAIL-VL2多模态大模型在106个数据集上取得了显著突破，尤其在复杂推理任务中表现出色。该模型通过创新架构和数据处理，展现了小参数规模模型的强大能力，具备细粒度视觉感知和复杂推理能力，成为开源领域的领先者。

抖音&LV-NUS开源多模态新模，以小博大刷新SOTA，8B推理比肩GPT-4o

量子位 ·

Agent设计模式——附录 B - AI Agentic 交互：从图形界面到现实世界环境

XINDOO的博客 ·

$VisualMimic——基于视觉的人形行走-操作控制：低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令$

VisualMimic——基于视觉的人形行走-操作控制：低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令

结构之法算法之道 ·

LOVON系统结合大语言模型与开放词汇视觉感知，旨在提升足式机器人在复杂环境中的长时任务执行能力。通过拉普拉斯方差滤波技术，LOVON解决了视觉不稳定性，实现了动态目标下的自主导航与任务规划。

LOVON——面向足式Open-Vocabulary的物体导航：LLM做任务分解、YOLO11做目标检测，最后L2MM将指令和视觉映射为动作(且解决动态模糊)

结构之法算法之道 ·

本文介绍了VITAL策略学习框架，通过将操作任务分为到达和局部交互两个阶段，结合视觉和触觉感知，提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位，并通过触觉反馈实现高精度操作，克服了模仿学习和强化学习的局限性。

VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC：先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)

结构之法算法之道 ·

UC伯克利等团队研发的LeVERB框架首次实现人形机器人视觉感知与运动控制的结合，机器人能够根据语言指令自动完成复杂动作。在Unitree G1机器人上测试，零样本成功率达到80%，整体任务成功率为58.5%，显著优于传统方法。

人形机器人首次打通视觉感知与运动断层，UC伯克利华人博士让宇树G1现场演示

量子位 ·

上海AI实验室推出VeBrain通用智能大脑，集成视觉感知、空间推理和机器人控制，实现机器人像人类一样的“看到-思考-行动”。该模型通过关键点检测和技能识别，提升多模态理解与控制能力，测试结果显示其在多个任务中表现优异。

上海AI实验室造出首个「通才」机器人大脑：看懂世界+空间推理+精准操控全拿下

量子位 ·

本研究提出了一种三重层次扩散策略（H$^{3}$DP），有效解决视觉感知与动作预测的耦合问题。H$^{3}$DP在44个仿真任务中性能提升27.5%，并在4个双手操作任务中表现优异，显示出其潜在影响。

H$^{ extbf{3}}$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种自适应标记语言生成方法，旨在解决视觉文档理解中视觉感知与文本理解的整合问题。该模型在复杂文档布局下表现优异，显著提升了视觉场景的推理和理解能力。

Adaptive Markup Language Generation for Contextual Visual Document Understanding

BriefGPT - AI 论文速递 ·

Perception-R1是由多所高校联合开发的多模态大语言模型，首次在COCO2017验证集上实现30AP，超越YOLOv3等模型。该模型通过强化学习优化视觉感知策略，提升了物体检测、计数和OCR等任务的能力，为AI视觉感知的未来奠定基础。

用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源

量子位 ·

统一细粒度感知！北大&阿里提出UFO：无需SAM，16个token让MLLM实现精准分割

机器之心 ·

本研究提出了一种模块化视觉对比解码（MVCD）框架，旨在提升大型语言模型（LLMs）在多模态任务中的表现。MVCD通过利用LLMs的上下文学习能力，有效提高了视觉感知能力和模型准确性，展现出重要的应用潜力。

Enhancing Visual Capabilities of Language Models: Visual Contrastive Decoding for Multimodal Reasoning in Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了大型视觉语言模型中的幻觉现象，提出了视觉感知头发散指标，量化注意力头对视觉内容的敏感性，并引入视觉感知头强化方法，显著改善了模型表现。

从“养虾热”到实体交互：元萝卜推动OpenClaw走向真实世界

一分钟读论文：《SemVideo：从大脑 fMRI 直接重建视频！读心术真的来了？》

抖音&LV-NUS开源多模态新模，以小博大刷新SOTA，8B推理比肩GPT-4o

Agent设计模式——附录 B - AI Agentic 交互：从图形界面到现实世界环境

VisualMimic——基于视觉的人形行走-操作控制：低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令

LOVON——面向足式Open-Vocabulary的物体导航：LLM做任务分解、YOLO11做目标检测，最后L2MM将指令和视觉映射为动作(且解决动态模糊)

VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC：先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)

人形机器人首次打通视觉感知与运动断层，UC伯克利华人博士让宇树G1现场演示

上海AI实验室造出首个「通才」机器人大脑：看懂世界+空间推理+精准操控全拿下

H$^{ extbf{3}}$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

Adaptive Markup Language Generation for Contextual Visual Document Understanding

用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源

统一细粒度感知！北大&阿里提出UFO：无需SAM，16个token让MLLM实现精准分割

Enhancing Visual Capabilities of Language Models: Visual Contrastive Decoding for Multimodal Reasoning in Large Language Models

Cracking the Hallucination in Large Vision-Language Models with Vision-Aware Head Divergence

VLRewardBench：一个具有挑战性的视觉-语言生成奖励模型基准

Trojan Robots: Backdoor Attacks on Robotic Manipulation in the Physical World

Precision-Focused Reinforcement Learning Model for Robotic Object Pushing

扩散模型在感知任务中的缩放特性

Diff-2-in-1: Bridging Generation and Dense Perception through Diffusion Models