小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5:教你如何逐步微调GR00T(含在宇树G1上的真机部署)

本文介绍了英伟达GR00T N1.5的升级与应用,强调其在机器人语言理解和视觉处理方面的显著提升。N1.5通过Eagle-2模型增强了文本和视觉的编码能力,提高了任务执行的准确性和效率。文章还分享了在长沙举办的线下营中,团队如何解决部署过程中的问题,并展示了N1.5在实际操作中的应用案例,如纸巾抓取。

GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5:教你如何逐步微调GR00T(含在宇树G1上的真机部署)

结构之法 算法之道
结构之法 算法之道 · 2025-09-20T16:43:09Z

SmolVLM2是Hugging Face开发的紧凑型大型模型,旨在为资源受限设备提供语言和视觉处理能力。它支持视频、图像和文本输入,具有多种参数规模,性能显著提升。应用包括风景、事故现场和物体识别等,但存在冗余回复问题,需进一步优化。

SmolVLM2轻量级视频多模态模型,应用效果测评(风景、事故、仿真、统计、文字、识物)

dotNET跨平台
dotNET跨平台 · 2025-05-30T00:04:31Z
利用前沿技术赋能商业创新:基于HarmonyOS 5原子视觉服务的开发实践

在HarmonyOS 5框架下,@kit.CoreVisionKit模块实现了精准视觉处理,支持ID照片背景替换。通过智能主体分割技术,动态生成背景并实时预览,适用于ID照片制作和电商产品图像处理,开发者可利用AI视觉服务扩展智能图像处理功能。

利用前沿技术赋能商业创新:基于HarmonyOS 5原子视觉服务的开发实践

DEV Community
DEV Community · 2025-05-19T06:13:34Z
FPGA与特斯拉定制ASIC在汽车感知中的技术比较

特斯拉从FPGA/GPU系统转向定制ASIC(如FSD芯片、Dojo D1),在激光雷达和视觉处理上采取不同于行业标准的策略。FPGA适合多传感器融合但功耗高,而特斯拉的ASIC在视觉处理上表现优越,但不支持激光雷达。FPGA具有较强适应性,而ASIC则需控制整个技术栈。

FPGA与特斯拉定制ASIC在汽车感知中的技术比较

DEV Community
DEV Community · 2025-04-16T07:59:01Z
多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代

昆仑万维的R1V模型实现了多模态推理,具备强大的视觉和文本处理能力,在数学推理和视觉任务中表现优异,超越了多种开源和闭源模型。其技术创新包括高效的多模态迁移、混合训练和自适应推理链,推动了AI应用的多样化发展。

多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代

机器之心
机器之心 · 2025-03-18T08:04:36Z
类脑神经网络匹配人类视觉和语言处理性能

TopoNets是一种新型神经网络架构,受大脑组织启发,结合视觉和语言处理,采用生物学原理,展现出色性能。它构建了类似大脑皮层的二维结构,实现了基于距离的连接。

类脑神经网络匹配人类视觉和语言处理性能

DEV Community
DEV Community · 2025-02-03T09:05:21Z
SAM 2.1上新、Lingua代码库发布,一大波Meta开源工具来袭

Meta分享了一系列研究和模型,支持其高级机器智能目标,涵盖感知、语音、语言和推理。SAM 2.1通过数据增强提升视觉处理;Spirit LM实现语音与文本集成;Layer Skip加速语言模型生成,降低成本;Lingua简化大规模语言模型训练;MEXMA提升跨语言句子编码器性能,支持80种语言。这些研究促进了开放科学和可复现性。

SAM 2.1上新、Lingua代码库发布,一大波Meta开源工具来袭

机器之心
机器之心 · 2024-10-19T13:32:49Z

生物神经系统为计算机提供灵感,神经形态学将大脑视为优化的硬件和算法系统。本文提出基于时空感受野的神经形态模型,利用空间仿射高斯核和时间漏积分模型,类似哺乳动物视觉处理。研究表明,该模型在事件驱动视觉任务中提高了脉冲网络的训练效果。

人工库拉莫环神经元

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

Qwen2-VL系列模型是对Qwen-VL模型的升级,引入了动态分辨率机制,解决了视觉处理中的预定分辨率方法的局限。该模型能够高效处理不同分辨率的图像,实现了文本、图像和视频之间的有效信息融合,并在多模态基准上表现优异。

Qwen2-VL:在任何分辨率下增强视觉-语言模型对世界的感知

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码