小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
从“养虾热”到实体交互:元萝卜推动OpenClaw走向真实世界

元萝卜通过OpenClaw项目实现了AI与现实世界的交互,推动了桌面智能体的发展。该项目结合视觉感知与机械臂,能够执行抓取和摆放等任务,拓展了AI的应用场景,模糊了虚拟与现实的界限。

从“养虾热”到实体交互:元萝卜推动OpenClaw走向真实世界

量子位
量子位 · 2026-03-17T12:12:51Z
一分钟读论文:《SemVideo:从大脑 fMRI 直接重建视频!读心术真的来了?》

科学家们开发了SemVideo系统,能够从fMRI大脑信号重建观看的视频。该技术通过分层语义信息指导重建,推动了脑机接口和视觉感知研究的发展。尽管存在设备昂贵和视频质量不足的局限,SemVideo为未来沟通方式带来了新可能。

一分钟读论文:《SemVideo:从大脑 fMRI 直接重建视频!读心术真的来了?》

Micropaper
Micropaper · 2026-03-03T02:30:00Z

抖音SAIL团队与LV-NUS Lab联合推出的SAIL-VL2多模态大模型在106个数据集上取得了显著突破,尤其在复杂推理任务中表现出色。该模型通过创新架构和数据处理,展现了小参数规模模型的强大能力,具备细粒度视觉感知和复杂推理能力,成为开源领域的领先者。

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

量子位
量子位 · 2025-10-14T03:17:20Z
Agent设计模式——附录 B - AI Agentic 交互:从图形界面到现实世界环境

AI Agent 通过与计算机和物理环境的互动,执行复杂任务并重塑自动化与人机交互。它们利用视觉感知和上下文理解,能够像人类一样操作图形用户界面,从而提升工作效率。主要项目如 Google Project Astra 和 OpenAI 的 ChatGPT Agent 展示了这些技术的潜力,推动了主动式、情境感知型 AI 伙伴的发展。

Agent设计模式——附录 B - AI Agentic 交互:从图形界面到现实世界环境

XINDOO的博客
XINDOO的博客 · 2025-10-04T15:58:57Z
VisualMimic——基于视觉的人形行走-操作控制:低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令

本文讨论了VisualMimic框架在类人机器人行走与操作中的应用,通过分层设计提升强化学习的泛化能力。该框架结合低层关键点跟踪与高层视觉运动策略,使机器人在真实环境中执行多样化任务,展现出良好的鲁棒性和适应性。研究强调自我中心视觉感知与全身灵巧性的结合,推动了人形机器人在物体交互方面的进展。

VisualMimic——基于视觉的人形行走-操作控制:低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令

结构之法 算法之道
结构之法 算法之道 · 2025-09-28T14:32:19Z

LOVON系统结合大语言模型与开放词汇视觉感知,旨在提升足式机器人在复杂环境中的长时任务执行能力。通过拉普拉斯方差滤波技术,LOVON解决了视觉不稳定性,实现了动态目标下的自主导航与任务规划。

LOVON——面向足式Open-Vocabulary的物体导航:LLM做任务分解、YOLO11做目标检测,最后L2MM将指令和视觉映射为动作(且解决动态模糊)

结构之法 算法之道
结构之法 算法之道 · 2025-08-01T08:32:19Z

本文介绍了VITAL策略学习框架,通过将操作任务分为到达和局部交互两个阶段,结合视觉和触觉感知,提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位,并通过触觉反馈实现高精度操作,克服了模仿学习和强化学习的局限性。

VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC:先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)

结构之法 算法之道
结构之法 算法之道 · 2025-07-03T09:01:43Z

UC伯克利等团队研发的LeVERB框架首次实现人形机器人视觉感知与运动控制的结合,机器人能够根据语言指令自动完成复杂动作。在Unitree G1机器人上测试,零样本成功率达到80%,整体任务成功率为58.5%,显著优于传统方法。

人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示

量子位
量子位 · 2025-06-25T06:38:31Z

上海AI实验室推出VeBrain通用智能大脑,集成视觉感知、空间推理和机器人控制,实现机器人像人类一样的“看到-思考-行动”。该模型通过关键点检测和技能识别,提升多模态理解与控制能力,测试结果显示其在多个任务中表现优异。

上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下

量子位
量子位 · 2025-06-05T08:29:11Z

本研究提出了一种三重层次扩散策略(H$^{3}$DP),有效解决视觉感知与动作预测的耦合问题。H$^{3}$DP在44个仿真任务中性能提升27.5%,并在4个双手操作任务中表现优异,显示出其潜在影响。

H$^{ extbf{3}}$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z

本研究提出了一种自适应标记语言生成方法,旨在解决视觉文档理解中视觉感知与文本理解的整合问题。该模型在复杂文档布局下表现优异,显著提升了视觉场景的推理和理解能力。

Adaptive Markup Language Generation for Contextual Visual Document Understanding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

Perception-R1是由多所高校联合开发的多模态大语言模型,首次在COCO2017验证集上实现30AP,超越YOLOv3等模型。该模型通过强化学习优化视觉感知策略,提升了物体检测、计数和OCR等任务的能力,为AI视觉感知的未来奠定基础。

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

量子位
量子位 · 2025-05-03T04:15:09Z
统一细粒度感知!北大&阿里提出UFO:无需SAM,16个token让MLLM实现精准分割

UFO是一种新型多模态大模型,通过特征检索实现细粒度视觉感知,无需额外解码器,表现优异,支持文本输出,简化任务复杂性,提升性能。

统一细粒度感知!北大&阿里提出UFO:无需SAM,16个token让MLLM实现精准分割

机器之心
机器之心 · 2025-03-25T02:23:42Z

本研究提出了一种模块化视觉对比解码(MVCD)框架,旨在提升大型语言模型(LLMs)在多模态任务中的表现。MVCD通过利用LLMs的上下文学习能力,有效提高了视觉感知能力和模型准确性,展现出重要的应用潜力。

Enhancing Visual Capabilities of Language Models: Visual Contrastive Decoding for Multimodal Reasoning in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究探讨了大型视觉语言模型中的幻觉现象,提出了视觉感知头发散指标,量化注意力头对视觉内容的敏感性,并引入视觉感知头强化方法,显著改善了模型表现。

Cracking the Hallucination in Large Vision-Language Models with Vision-Aware Head Divergence

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出了综合性基准VL-RewardBench,用于评估视觉-语言生成奖励模型(VL-GenRMs)。通过高质量样本选择与人工验证,发现该基准能够揭示模型在视觉感知任务中的失误,并与其他测评结果高度相关,为改进VL-GenRMs提供了重要见解。

VLRewardBench:一个具有挑战性的视觉-语言生成奖励模型基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z

本研究首次将后门攻击应用于机器人视觉感知模块,证明其能够有效误导机器人臂的操作,揭示了潜在的安全威胁。

Trojan Robots: Backdoor Attacks on Robotic Manipulation in the Physical World

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z

本研究提出了一种新的记忆型视觉-本体感知强化学习模型,旨在提高机器人推物的精确度,减少修正动作,增强其在日常生活中的辅助能力。

Precision-Focused Reinforcement Learning Model for Robotic Object Pushing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z

本研究探讨了扩散模型在生成和视觉感知任务中的应用,提出了一种将深度估计、光流和分割统一为图像转换的高效训练技术。结果表明,该模型在数据和计算资源较少的情况下,性能与先进方法相当。

扩散模型在感知任务中的缩放特性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

本研究提出Diff-2-in-1框架,解决了扩散模型在密集视觉感知任务中的应用不足,优化了多模态生成与视觉感知的结合,显著提升了生成数据的有效性和多样性。

Diff-2-in-1: Bridging Generation and Dense Perception through Diffusion Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码