多模态版DeepSeek-R1:评测表现超GPT-4o,模态穿透反哺文本推理能力!北大港科大出品,已开源

💡 原文中文,约4400字,阅读约需11分钟。
📝

内容提要

多模态版DeepSeek-R1(Align-DS-V)由北大与港科大联合开发,超越GPT-4o,具备跨模态推理能力。通过Align-Anything框架,模型在视觉理解和文本推理上显著提升,复杂任务成绩从21.4提升至40.5。该框架支持多模态对齐,促进人工智能与人类意图结合,已开源并持续维护。

🎯

关键要点

  • 多模态版DeepSeek-R1(Align-DS-V)由北大与港科大联合开发,超越GPT-4o,具备跨模态推理能力。
  • Align-Anything框架显著提升视觉理解和文本推理,复杂任务成绩从21.4提升至40.5。
  • Align-Anything框架支持多模态对齐,促进人工智能与人类意图结合,已开源并持续维护。
  • Align-DS-V在图文结合的任务中表现优异,能够准确指出饮品名称及适合减脂的饮品。
  • 多模态训练提升了模型在科学任务、复杂推理和数学代码等方面的表现。
  • Align-Anything框架具备高度模块化和扩展性,支持多种模态的对齐微调。
  • Align-Anything提供高质量的全模态人类偏好数据集,促进跨模态评估和改进。
  • Align-DS-V在香港地区进行本地化对齐,适应粤语、英语和普通话混合输入。
  • 北大与港科大联合开发的Align-Anything和Align-DS-V已开源,团队将长期维护。
➡️

继续阅读