小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Claude Opus 4.7:优缺点与评测信息汇总

Claude Opus 4.7版本在自主编程和视觉处理能力上有显著提升,支持长边最高2576像素。新功能包括在线审查和自动模式,但相较于4.6版本,token消耗增加,长上下文性能有所下降。

Claude Opus 4.7:优缺点与评测信息汇总

Frytea's Blog
Frytea's Blog · 2026-04-17T01:22:03Z
GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5:教你如何逐步微调GR00T(含在宇树G1上的真机部署)

本文介绍了英伟达GR00T N1.5的升级与应用,强调其在机器人语言理解和视觉处理方面的显著提升。N1.5通过Eagle-2模型增强了文本和视觉的编码能力,提高了任务执行的准确性和效率。文章还分享了在长沙举办的线下营中,团队如何解决部署过程中的问题,并展示了N1.5在实际操作中的应用案例,如纸巾抓取。

GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5:教你如何逐步微调GR00T(含在宇树G1上的真机部署)

结构之法 算法之道
结构之法 算法之道 · 2025-09-20T16:43:09Z

SmolVLM2是Hugging Face开发的紧凑型大型模型,旨在为资源受限设备提供语言和视觉处理能力。它支持视频、图像和文本输入,具有多种参数规模,性能显著提升。应用包括风景、事故现场和物体识别等,但存在冗余回复问题,需进一步优化。

SmolVLM2轻量级视频多模态模型,应用效果测评(风景、事故、仿真、统计、文字、识物)

dotNET跨平台
dotNET跨平台 · 2025-05-30T00:04:31Z
利用前沿技术赋能商业创新:基于HarmonyOS 5原子视觉服务的开发实践

在HarmonyOS 5框架下,@kit.CoreVisionKit模块实现了精准视觉处理,支持ID照片背景替换。通过智能主体分割技术,动态生成背景并实时预览,适用于ID照片制作和电商产品图像处理,开发者可利用AI视觉服务扩展智能图像处理功能。

利用前沿技术赋能商业创新:基于HarmonyOS 5原子视觉服务的开发实践

DEV Community
DEV Community · 2025-05-19T06:13:34Z
FPGA与特斯拉定制ASIC在汽车感知中的技术比较

特斯拉从FPGA/GPU系统转向定制ASIC(如FSD芯片、Dojo D1),在激光雷达和视觉处理上采取不同于行业标准的策略。FPGA适合多传感器融合但功耗高,而特斯拉的ASIC在视觉处理上表现优越,但不支持激光雷达。FPGA具有较强适应性,而ASIC则需控制整个技术栈。

FPGA与特斯拉定制ASIC在汽车感知中的技术比较

DEV Community
DEV Community · 2025-04-16T07:59:01Z
多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代

昆仑万维的R1V模型实现了多模态推理,具备强大的视觉和文本处理能力,在数学推理和视觉任务中表现优异,超越了多种开源和闭源模型。其技术创新包括高效的多模态迁移、混合训练和自适应推理链,推动了AI应用的多样化发展。

多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代

机器之心
机器之心 · 2025-03-18T08:04:36Z
类脑神经网络匹配人类视觉和语言处理性能

TopoNets是一种新型神经网络架构,受大脑组织启发,结合视觉和语言处理,采用生物学原理,展现出色性能。它构建了类似大脑皮层的二维结构,实现了基于距离的连接。

类脑神经网络匹配人类视觉和语言处理性能

DEV Community
DEV Community · 2025-02-03T09:05:21Z

本文研究了深度卷积神经网络在视觉处理中的应用,发现不同的神经约束导致不同的表征模式。提出了Neuroscore测评策略和Mouse neural system identification基准,利用自监督方法学习图像特征,并探讨了脑结构与功能的关系,提出了视觉决策模型,展示了其在决策任务中的优越性能。

小鼠人工智能在猫和奶酪领域表现出色:人类与小鼠神经元之间的结构差异及其在生成式人工智能中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z
SAM 2.1上新、Lingua代码库发布,一大波Meta开源工具来袭

Meta分享了一系列研究和模型,支持其高级机器智能目标,涵盖感知、语音、语言和推理。SAM 2.1通过数据增强提升视觉处理;Spirit LM实现语音与文本集成;Layer Skip加速语言模型生成,降低成本;Lingua简化大规模语言模型训练;MEXMA提升跨语言句子编码器性能,支持80种语言。这些研究促进了开放科学和可复现性。

SAM 2.1上新、Lingua代码库发布,一大波Meta开源工具来袭

机器之心
机器之心 · 2024-10-19T13:32:49Z

Qwen2-VL系列是Qwen-VL模型的升级版,解决了视觉处理中的固定分辨率限制。该研究引入动态分辨率机制,能够高效处理不同分辨率的图像,生成更准确的视觉表示,并实现文本、图像和视频的信息融合。Qwen2-VL在多模态基准测试中表现优异,接近领先模型的水平。

Qwen2-VL: Enhancing the Perception of Vision-Language Models of the World at Any Resolution

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-18T00:00:00Z

本文介绍了多维循环神经网络(MDRNNs)及其在视觉、视频处理和医疗影像等领域的应用,解决了多维模型的缩放问题。研究还探讨了深度递归神经网络与多模态循环神经网络的结合,展示了在图像分割、语音识别和图像描述等任务中的优越性能。

针对静态图像的递归神经网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z

本文介绍了一种新颖的多模态图表问答模型,结合视觉和语言处理,克服了传统方法的局限。该模型采用双阶段训练,特别擅长处理复杂图表问题。研究还提出了新的评估标准和数据集,推动多模态推理模型的发展,旨在提升数字助手的能力。

FlowVQA:将流程图用于视觉问答中的多模态逻辑映射

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

该研究提出了多种基于深度学习的视觉和语言处理方法,如区分式双模神经网络(DBNet)和双分支残差卷积神经网络(DRHDR),在视觉实体定位和图像去噪任务中表现优越,显著提高了准确率和计算效率。

DBDH: 一种用于隐形嵌入区域定位的双支路双头神经网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-06T00:00:00Z

本文介绍了Mind-Video模型,该模型通过对抗性指导从fMRI数据中重建高质量视频,性能比现有模型提高了45%。研究还提出了NeuroCine框架,解决了fMRI数据中的噪声和冗余问题,显著提升了视频重建效果。该方法在多个公开数据集上测试,展现出良好的生物合理性和可解释性,推动了对人脑视觉处理的理解。

思维动画化:从缓慢的脑活动中解耦动态自然视觉重建

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-06T00:00:00Z

本文探讨了结合 fMRI 信号和深度学习模型重建复杂图像场景的方法,提出了 MindEye 和 MindDiffuser 等新技术,利用对比学习和扩散技术实现高效图像重建与检索。同时,NeuroImagen 和 Recon3DMind 任务展示了从脑电信号和 fMRI 信号中提取高分辨率视觉信息的能力,推动了对人脑视觉处理的理解。

脑力到图像:将大脑的视觉心理想象从 fMRI 投影出来

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-08T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码