多模态版DeepSeek-R1:评测表现超GPT-4o,模态穿透反哺文本推理能力!北大港科大出品,已开源
💡
原文中文,约4400字,阅读约需11分钟。
📝
内容提要
多模态版DeepSeek-R1(Align-DS-V)由北大与港科大联合开发,超越GPT-4o,具备跨模态推理能力。通过Align-Anything框架,模型在视觉理解和文本推理上显著提升,复杂任务成绩从21.4提升至40.5。该框架支持多模态对齐,促进人工智能与人类意图结合,已开源并持续维护。
🎯
关键要点
- 多模态版DeepSeek-R1(Align-DS-V)由北大与港科大联合开发,超越GPT-4o,具备跨模态推理能力。
- Align-Anything框架显著提升视觉理解和文本推理,复杂任务成绩从21.4提升至40.5。
- Align-Anything框架支持多模态对齐,促进人工智能与人类意图结合,已开源并持续维护。
- Align-DS-V在图文结合的任务中表现优异,能够准确指出饮品名称及适合减脂的饮品。
- 多模态训练提升了模型在科学任务、复杂推理和数学代码等方面的表现。
- Align-Anything框架具备高度模块化和扩展性,支持多种模态的对齐微调。
- Align-Anything提供高质量的全模态人类偏好数据集,促进跨模态评估和改进。
- Align-DS-V在香港地区进行本地化对齐,适应粤语、英语和普通话混合输入。
- 北大与港科大联合开发的Align-Anything和Align-DS-V已开源,团队将长期维护。
🏷️
标签
➡️