小红花·文摘

Claude Opus 4.7：优缺点与评测信息汇总

Frytea's Blog ·

$GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5：教你如何逐步微调GR00T(含在宇树G1上的真机部署)$

GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5：教你如何逐步微调GR00T(含在宇树G1上的真机部署)

结构之法算法之道 ·

SmolVLM2是Hugging Face开发的紧凑型大型模型，旨在为资源受限设备提供语言和视觉处理能力。它支持视频、图像和文本输入，具有多种参数规模，性能显著提升。应用包括风景、事故现场和物体识别等，但存在冗余回复问题，需进一步优化。

SmolVLM2轻量级视频多模态模型，应用效果测评(风景、事故、仿真、统计、文字、识物)

dotNET跨平台 ·

利用前沿技术赋能商业创新：基于HarmonyOS 5原子视觉服务的开发实践

DEV Community ·

FPGA与特斯拉定制ASIC在汽车感知中的技术比较

DEV Community ·

多模态也做到了强推理！工业界首个开源的R1V，让视觉思考进入o1时代

机器之心 ·

类脑神经网络匹配人类视觉和语言处理性能

DEV Community ·

本文研究了深度卷积神经网络在视觉处理中的应用，发现不同的神经约束导致不同的表征模式。提出了Neuroscore测评策略和Mouse neural system identification基准，利用自监督方法学习图像特征，并探讨了脑结构与功能的关系，提出了视觉决策模型，展示了其在决策任务中的优越性能。

小鼠人工智能在猫和奶酪领域表现出色：人类与小鼠神经元之间的结构差异及其在生成式人工智能中的应用

BriefGPT - AI 论文速递 ·

SAM 2.1上新、Lingua代码库发布，一大波Meta开源工具来袭

机器之心 ·

Qwen2-VL系列是Qwen-VL模型的升级版，解决了视觉处理中的固定分辨率限制。该研究引入动态分辨率机制，能够高效处理不同分辨率的图像，生成更准确的视觉表示，并实现文本、图像和视频的信息融合。Qwen2-VL在多模态基准测试中表现优异，接近领先模型的水平。

Qwen2-VL: Enhancing the Perception of Vision-Language Models of the World at Any Resolution

BriefGPT - AI 论文速递 ·

本文介绍了多维循环神经网络（MDRNNs）及其在视觉、视频处理和医疗影像等领域的应用，解决了多维模型的缩放问题。研究还探讨了深度递归神经网络与多模态循环神经网络的结合，展示了在图像分割、语音识别和图像描述等任务中的优越性能。

针对静态图像的递归神经网络

BriefGPT - AI 论文速递 ·

本文介绍了一种新颖的多模态图表问答模型，结合视觉和语言处理，克服了传统方法的局限。该模型采用双阶段训练，特别擅长处理复杂图表问题。研究还提出了新的评估标准和数据集，推动多模态推理模型的发展，旨在提升数字助手的能力。

FlowVQA：将流程图用于视觉问答中的多模态逻辑映射

BriefGPT - AI 论文速递 ·

该研究提出了多种基于深度学习的视觉和语言处理方法，如区分式双模神经网络(DBNet)和双分支残差卷积神经网络(DRHDR)，在视觉实体定位和图像去噪任务中表现优越，显著提高了准确率和计算效率。

DBDH: 一种用于隐形嵌入区域定位的双支路双头神经网络

BriefGPT - AI 论文速递 ·

本文介绍了Mind-Video模型，该模型通过对抗性指导从fMRI数据中重建高质量视频，性能比现有模型提高了45%。研究还提出了NeuroCine框架，解决了fMRI数据中的噪声和冗余问题，显著提升了视频重建效果。该方法在多个公开数据集上测试，展现出良好的生物合理性和可解释性，推动了对人脑视觉处理的理解。

思维动画化：从缓慢的脑活动中解耦动态自然视觉重建

BriefGPT - AI 论文速递 ·

本文探讨了结合 fMRI 信号和深度学习模型重建复杂图像场景的方法，提出了 MindEye 和 MindDiffuser 等新技术，利用对比学习和扩散技术实现高效图像重建与检索。同时，NeuroImagen 和 Recon3DMind 任务展示了从脑电信号和 fMRI 信号中提取高分辨率视觉信息的能力，推动了对人脑视觉处理的理解。

脑力到图像：将大脑的视觉心理想象从 fMRI 投影出来

BriefGPT - AI 论文速递 ·