小红花·文摘 - 小红花技术领袖俱乐部

进入全宇宙：通过合成数据和微调提高视觉AI代理准确性的三种工作流程

进入全宇宙：通过合成数据和微调提高视觉AI代理准确性的三种工作流程

NVIDIA Blog ·

GLM-5.3你来定！智谱唐杰全球征集意见，评论区清一色：视觉

量子位 ·

《星际狐狸》是Switch 2上最令人印象深刻的视觉展示

《星际狐狸》是Switch 2上最令人印象深刻的视觉展示

The Verge ·

AI以貌取人研究：六种模型暴露最致命视觉偏见

AI以貌取人研究：六种模型暴露最致命视觉偏见

极道 ·

星载推理：一颗卫星正运行谷歌Gemma 3视觉语言模型

星载推理：一颗卫星正运行谷歌Gemma 3视觉语言模型

极道 ·

全国视觉智能标准化工作组第1次会议暨AVS工作组第97次会议顺利召开

全国视觉智能标准化工作组第1次会议暨AVS工作组第97次会议顺利召开

实时互动网 ·

详解墨水屏对接LS26视觉语音开发板（Arcs-mini ）

详解墨水屏对接LS26视觉语音开发板（Arcs-mini ）

分享AI芯片开发经验 ·

Zyphra发布Zamba2-VL：混合Mamba2-Transformer视觉语言模型

Zyphra发布Zamba2-VL：混合Mamba2-Transformer视觉语言模型

实时互动网 ·

详解小聆AI语音视觉开发板实现语音点播本地TF卡中音乐的开发实现方法

详解小聆AI语音视觉开发板实现语音点播本地TF卡中音乐的开发实现方法

分享AI芯片开发经验 ·

苹果将更新电视上的播客视觉观看体验

苹果将更新电视上的播客视觉观看体验

实时互动网 ·

使用快照捕捉视觉回归，现已进入测试阶段

使用快照捕捉视觉回归，现已进入测试阶段

Sentry Blog ·

AI语音视觉开发板对接 OpenClaw 龙虾实现多模态交互

AI语音视觉开发板对接 OpenClaw 龙虾实现多模态交互

分享AI芯片开发经验 ·

Neurovia AI展示NeuroStream视觉数据底层基础设施平台

Neurovia AI展示NeuroStream视觉数据底层基础设施平台

全球TMT-美通国际 ·

深度估计准确率冲上0.9，Meta提出VLM³，论证视觉模型天生会学3D，以Qwen3-VL-4B为基础实现多任务的统一建模

深度估计准确率冲上0.9，Meta提出VLM³，论证视觉模型天生会学3D，以Qwen3-VL-4B为基础实现多任务的统一建模

HyperAI超神经 ·

$ABot-Claw——改进OpenClaw以驱动双足机器人自主干活的三个关键点：统一具身接口、视觉多模态记忆、基于奖励模型的执行反馈模块(比如给会议室的人递杯水)$

ABot-Claw——改进OpenClaw以驱动双足机器人自主干活的三个关键点：统一具身接口、视觉多模态记忆、基于奖励模型的执行反馈模块(比如给会议室的人递杯水)

结构之法算法之道 ·

OpenCV与AMD宣布合作，加速AMD硬件上的计算机视觉和视觉AI工作负载

OpenCV与AMD宣布合作，加速AMD硬件上的计算机视觉和视觉AI工作负载

OpenCV ·

机器视觉压缩的三种途径：VCM、FCM 和 V-Nova 通配符

机器视觉压缩的三种途径：VCM、FCM 和 V-Nova 通配符

实时互动网 ·

LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局

量子位 ·

NVIDIA通过代理技能推动物理AI研究的新纪元，支持自动驾驶、机器人和视觉AI

NVIDIA通过代理技能推动物理AI研究的新纪元，支持自动驾驶、机器人和视觉AI

NVIDIA Blog ·

τ0-WM——智元的视频-动作世界模型：组合“遥操、umi、人类第一人称视角”数据，未来视觉Latent助力动作生成，然后重新加噪去噪，若自洽取表现最好者直接执行，否则模拟推演找出最佳视觉指引重新生成

τ0-WM——智元的视频-动作世界模型：组合“遥操、umi、人类第一人称视角”数据，未来视觉Latent助力动作生成，然后重新加噪去噪，若自洽取表现最好者直接执行，否则模拟推演找出最佳视觉指引重新生成

结构之法算法之道 ·