量子位 ·

多模态版DeepSeek-R1：评测表现超GPT-4o，模态穿透反哺文本推理能力！北大港科大出品，已开源

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

多模态版DeepSeek-R1（Align-DS-V）由北大与港科大联合开发，超越GPT-4o，具备跨模态推理能力。通过Align-Anything框架，模型在视觉理解和文本推理上显著提升，复杂任务成绩从21.4提升至40.5。该框架支持多模态对齐，促进人工智能与人类意图结合，已开源并持续维护。

🎯

❓

DeepSeek-R1的多模态版本Align-DS-V具备跨模态推理能力，超越了GPT-4o，并在视觉理解和文本推理上表现优异。

Align-Anything框架支持多模态对齐，促进人工智能与人类意图结合，具备高度模块化和扩展性。

Align-DS-V在复杂任务中的成绩从单模态的21.4提升至多模态的40.5，显示出显著的性能提升。

Align-Anything框架通过提供高质量的全模态人类偏好数据集，促进跨模态评估和改进，支持多种模态的对齐微调。

Align-DS-V经过本地化对齐，能够适应粤语、英语和普通话的混合输入，增强了其在香港地区的应用能力。

多模态训练提升了DeepSeek-R1在文本模态任务上的表现，扩展了推理边界，增强了模型的推理能力。

🏷️

[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
Crown Engine 0.63 恢复了其 OpenGL 渲染器，以支持旧版硬件
Crown Engine 0.63 是一款基于 C++ 的开源游戏引擎，新增 LOD 组组件以优化性能，并支持 OBJ 网格格式。更新改进了 FBX 导入...
VoidZero团队已加入Cloudflare
VoidZero团队已加入Cloudflare，Vite及其相关项目将继续保持开源和中立。Cloudflare承诺投资100万美元支持Vite生态系统的维...
B站宣布启动AI创造公开赛打造中国版Build in Public
哔哩哔哩于6月5日启动“AI创造公开赛”，旨在鼓励普通用户参与AI产品开发。比赛无年龄、学历限制，用户可通过投币和弹幕参与评选。赛事吸引了60%非专业开发...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...