量子位 ·

精准识别「界门纲目科属种」！北大彭宇新团队用细粒度树先验提升泛化，破解生物类别分层识别难题

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

北京大学彭宇新团队提出了分类感知表征对齐方法TARA，旨在解决多模态大模型在生物类别分层识别中的挑战，提升细粒度和分层视觉识别的准确率。该方法通过对齐大模型与生物基础模型的表征，注入类别树知识，从而增强模型的识别能力。

🎯

🔎

现有多模态大模型在细粒度视觉识别上表现良好，但在分层视觉识别中仍面临挑战。具体而言，模型在同层和跨层的判别性差，导致无法准确识别类别树中的层次关系。理解这些挑战有助于研究者在模型设计时更好地考虑类别树知识的引入。

TARA方法通过对齐大模型与生物基础模型的表征，注入类别树知识，显著提升了细粒度和分层视觉识别的准确率。这种创新的对齐方式为多模态大模型的训练提供了新的思路，尤其是在处理复杂的生物分类任务时，具有重要的应用价值。

TARA方法在识别新类别方面表现出色，尤其是那些在训练集中未见过的稀有物种。通过引入类别树先验，模型能够总结出用于识别父类别的特征，这为生物多样性研究和新物种的发现提供了新的工具和方法。

❓

TARA方法旨在解决多模态大模型在生物类别分层识别中的挑战，提升细粒度和分层视觉识别的准确率。

TARA通过对齐大模型与生物基础模型的表征，注入类别树知识，从而增强模型的识别能力。

主要挑战包括同层判别性差、跨层一致性差和新类泛化性差。

TARA方法包含分层视觉表征对齐和自由粒度类别表征对齐两个主要部分。

实验结果表明，TARA能增强现有大模型的细粒度视觉识别能力和分层视觉识别能力。

TARA方法通过注入类别树结构知识，提升了大模型的识别准确率，解决了现有模型的识别问题。

🏷️