量子位 ·

精准识别「界门纲目科属种」！北大彭宇新团队用细粒度树先验提升泛化，破解生物类别分层识别难题

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

北京大学彭宇新团队提出了分类感知表征对齐方法TARA，旨在解决多模态大模型在生物类别分层识别中的挑战，提升细粒度和分层视觉识别的准确率。该方法通过对齐大模型与生物基础模型的表征，注入类别树知识，从而增强模型的识别能力。

🎯

关键要点

北京大学彭宇新团队提出分类感知表征对齐方法TARA，旨在解决多模态大模型在生物类别分层识别中的挑战。
TARA通过对齐大模型与生物基础模型的表征，注入类别树知识，提升细粒度和分层视觉识别的准确率。
现有多模态大模型在细粒度视觉识别上表现出色，但在依赖类别树知识的分层视觉识别任务上仍存在挑战。
主要挑战包括同层判别性差、跨层一致性差和新类泛化性差。
TARA方法包含分层视觉表征对齐和自由粒度类别表征对齐两个主要部分。
实验结果表明，TARA能增强现有大模型的细粒度视觉识别能力和分层视觉识别能力。
TARA通过对齐大模型与生物基础模型的中间表征，注入类别树结构知识，提升每一层的识别准确率。
该研究成果已被CVPR 2026接收，并已开源。

🏷️

继续阅读

不能承受的生命之轻
《不能承受的生命之轻》探讨了轻与重的哲学主题，通过托马斯与特蕾莎的关系，揭示个体性、自由与偶然的复杂性。尽管未完全理解，作者欣赏昆德拉的文字美，认为其引发...
Ψ0——人形全身VLA：先用800h人类自视角视频数据预训练VLM，再用30h的真实机器人交互数据训练MM-DiT，最后用AMO做下肢RL跟踪
本文介绍了Ψ0模型，该模型结合大规模人类视频数据与真实机器人数据，训练出一种用于类人机器人灵巧运动的视觉-语言动作模型，能够有效提取运动先验，实现复杂的全身控制。
马可·奥勒留和他的《沉思录》
《沉思录》是罗马皇帝马可·奥勒留的自省之作，体现了他的谦逊与深思。他赞美有文化的人，强调关注可控事物并接受不可控事物。现代人因社交媒体倾向批评，忽视感恩与学习。
旅行 - 马来西亚 - 下
作者在马来西亚旅行，首先到达仙本那，发现小镇贫困、基础设施差，尽管海水美丽但环境恶劣。随后前往新山，由于熟悉未深入游览。仙本那的潜水活动丰富，但贫困问题严...
游记｜周末去了一趟苏州，找到了春天最舒服的打开方式
作者计划在太湖边露营，发现附近有永慧禅寺，决定前往。沿途风景优美，此次补上之前自驾环太湖时未经过苏州的遗憾。
QCon London 2026: Introducing Tansu.io — Rethinking Kafka for Lean Operations
Peter Morgan introduced Tansu at QCon London, an open-source, Kafka-compatibl...

精准识别「界门纲目科属种」！北大彭宇新团队用细粒度树先验提升泛化，破解生物类别分层识别难题

内容提要

关键要点

标签

继续阅读