小红花·文摘

机器人视觉迎来新突破！蚂蚁灵波空间感知模型LingBot-Depth 2.0正式发布

量子位 ·

移远通信发布全新割草机器人整体解决方案

全球TMT-美通国际 ·

Gemma 4是最新的开源模型，已被下载超过1.5亿次。它支持低延迟的离线应用，如HubX的英语辅导平台BetterSpeak，利用量化模型实现私密学习。此外，Gemma 4具备视觉语言处理能力，能够进行物体识别和图像描述，适用于多种创意项目。

看看三位开发者如何利用Gemma 4进行创作

The Keyword ·

大规模 RTSP 流媒体传输：架构和性能考量

实时互动网 ·

Narwal的Flow 2扫地机器人可能帮助你找到丢失的耳环

The Verge ·

方法教会生成式AI模型定位个性化物体

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) ·

Apache TVM 是一个适用于嵌入式设备的深度学习编译框架。本文介绍如何训练 MobileNetV1 模型并将其部署到 Arduino，实现物体识别。教程包括数据集准备、模型训练、量化和编译，最终使模型在 Arduino 上运行。

【TVM教程】在 Arduino 上为 microTVM 训练视觉模型

HyperAI超神经 ·

本研究提出V$^2$R-Bench基准框架，以评估大型视觉语言模型（LVLM）在视觉变化（如位置、尺度、方向和上下文）下的鲁棒性。结果表明，即使是表现优秀的模型在简单物体识别任务中也存在不足，揭示了其架构设计的缺陷，强调未来设计需进行创新。

V$^2$R-Bench：全面评估大型视觉语言模型对基本视觉变化的鲁棒性

BriefGPT - AI 论文速递 ·

本研究评估了视觉语言模型（VLMs）在基础视觉概念理解方面的不足，发现其在物体识别上表现良好，但在方向和位置等低中级视觉能力上存在显著缺陷。

视觉语言模型在神经心理学测试中显示广泛的视觉缺陷

BriefGPT - AI 论文速递 ·

HuggingFace推出HuggingSnap应用，支持iOS、macOS和visionOS，利用本地smolvlm2模型实现离线实时物体识别，节省电量，适合购物、旅行和学习等场景。

HuggingFace推出iOS应用无需联网即可使用本地视觉模型描述用户周围的内容

蓝点网 ·

2025 年的智能眼镜：人工智能和 AR 技术的未来发展

实时互动网 ·

谷歌DeepMind今天发布了一系列新的Gemini模型，专为机器人设计。Gemini Robotics是一个视觉-语言-动作模型，能够将自然语言和图像转化为机器人动作。Gemini Robotics-ER模型增强了识别3D空间中物体及其部件的能力，使机器人能够完成折纸、打包午餐等任务。

深入了解我们新的Gemini机器人模型

The Keyword ·

本研究探讨了深度神经网络在物体识别中产生偏见的原因，尽管训练数据均衡。研究通过几何分析框架发现，类别感知流形的几何复杂性差异导致识别能力不均，从而引入偏见。

Revealing Bias Formation in Deep Neural Networks Through the Geometric Mechanisms of Human Visual Decoupling

BriefGPT - AI 论文速递 ·

YOLOv11 是一款新一代目标检测模型，提升了检测精度和复杂场景适应能力，支持物体检测、分类和姿态估计等多种视觉任务。在自动驾驶中表现优异，能够精准识别车辆、行人和交通标志。HyperAI 提供了一键部署教程，方便用户快速体验 YOLOv11 的强大功能。

在线教程｜YOLOv11 实战！速度与精度双全的目标检测神器

HyperAI超神经 ·

探索胶囊网络在人工智能中的被低估潜力

DEV Community ·

本研究提出了一种基于Gumbel空间剪枝的多扫描点云感知方法，旨在解决现有技术在户外环境中对远距或被遮挡物体识别的局限性。通过多次LiDAR扫描的累积和引入GSP层，显著提高了感知性能，同时未增加计算开销。

Efficient 3D Perception on Multi-Sweep Point Clouds Based on Gumbel Spatial Pruning

BriefGPT - AI 论文速递 ·

本研究探讨了上下文信息对物体识别模型准确性的影响，发现物体体积归因比上下文体积归因更显著，且上下文变化对模型性能的影响超出预期，为改进物体识别模型提供了新见解。

Lost in Context: The Impact of Context on Feature Attribution Methods for Object Recognition

BriefGPT - AI 论文速递 ·

本研究提出了一种解耦槽注意力模块，旨在解决现有物体中心学习方法在不同场景下识别相同物体的难题。该方法能够提取物体的全局不变属性，提升物体识别和复杂场景生成的能力。实验结果表明，该方法在全局物体中心表示学习和场景分解方面表现优异，具有重要的应用潜力。

Learning Global Object-Centric Representations via Disentangled Slot Attention

BriefGPT - AI 论文速递 ·

本文研究了深度卷积神经网络在物体识别中的表现，发现浅层网络在小视角变化时优于深层网络，而在大视角变化时，深层网络表现更佳。人类视觉系统在图像处理上更具鲁棒性，并与深度神经网络的误差模式存在显著差异。研究提出结合人类视觉显著性与主动学习的方法，以提高模型的可解释性和泛化能力。

利用人类显著性训练更好的深度学习模型

BriefGPT - AI 论文速递 ·

自1950年代以来，人工智能不断发展，现在在虚拟现实中起重要作用。AI通过优化图形渲染、物体识别、行为分析和个性化定制来提升VR体验。

人工智能在提升虚拟现实体验中的作用

DEV Community ·

机器人视觉迎来新突破！蚂蚁灵波空间感知模型LingBot-Depth 2.0正式发布

移远通信发布全新割草机器人整体解决方案

看看三位开发者如何利用Gemma 4进行创作

大规模 RTSP 流媒体传输：架构和性能考量

Narwal的Flow 2扫地机器人可能帮助你找到丢失的耳环

方法教会生成式AI模型定位个性化物体

【TVM教程】在 Arduino 上为 microTVM 训练视觉模型

V$^2$R-Bench：全面评估大型视觉语言模型对基本视觉变化的鲁棒性

视觉语言模型在神经心理学测试中显示广泛的视觉缺陷

HuggingFace推出iOS应用 无需联网即可使用本地视觉模型描述用户周围的内容

2025 年的智能眼镜：人工智能和 AR 技术的未来发展

深入了解我们新的Gemini机器人模型

Revealing Bias Formation in Deep Neural Networks Through the Geometric Mechanisms of Human Visual Decoupling

在线教程｜YOLOv11 实战！速度与精度双全的目标检测神器

探索胶囊网络在人工智能中的被低估潜力

Efficient 3D Perception on Multi-Sweep Point Clouds Based on Gumbel Spatial Pruning

Lost in Context: The Impact of Context on Feature Attribution Methods for Object Recognition

Learning Global Object-Centric Representations via Disentangled Slot Attention

利用人类显著性训练更好的深度学习模型

人工智能在提升虚拟现实体验中的作用

HuggingFace推出iOS应用无需联网即可使用本地视觉模型描述用户周围的内容