CMU 研究人员发布 Pangea-7B：适用于 39 种语言的完全开放多模态大型语言模型 MLLM

实时互动网 ·

CMU 研究人员发布 Pangea-7B：适用于 39 种语言的完全开放多模态大型语言模型 MLLM

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

尽管多模态大型语言模型（MLLM）在英语上取得进展，但全球语言和文化的代表性仍不足。卡内基梅隆大学推出的PANGEA模型，使用包含39种语言的600万个样本的数据集PANGEAINS进行训练。评估结果显示，PANGEA在多语言任务上优于现有模型，并在多元文化理解方面表现突出。该模型的开源有望提升跨语言和文化的公平性与可访问性。

🎯

关键要点

多模态大型语言模型（MLLM）在英语上取得进展，但全球语言和文化代表性不足。
卡内基梅隆大学推出的PANGEA模型，使用包含39种语言的600万个样本的数据集PANGEAINS进行训练。
PANGEA在多语言任务上优于现有模型，并在多元文化理解方面表现突出。
PANGEAINS数据集结合高质量的英语教学、机器翻译教学和文化相关的多模态任务。
PANGEABENCH评估套件涵盖14个数据集和47种语言，深入评估PANGEA的能力。
PANGEA-7B模型在英语任务上平均提升7.3分，在多语言任务上平均提升10.8分。
PANGEA在多元文化理解方面表现出色，跨语言能力均衡。
PANGEA在多个领域的表现与Gemini-1.5-Pro和GPT4o等专有模型相当甚至更好。
PANGEA的开源有望促进跨语言和文化的公平性与可访问性。
未来需要改进多模式聊天和复杂推理任务的性能。

❓

延伸问答

PANGEA模型的主要特点是什么？

PANGEA模型是一种多语言多模态语言模型，支持39种语言，使用600万个样本的数据集进行训练，旨在提升全球语言和文化的代表性。

PANGEAINS数据集的构建方法是什么？

PANGEAINS数据集通过翻译高质量的英文指令、生成文化意识任务和整合现有的开源多模态数据集来构建，旨在解决数据稀缺和文化差异问题。

PANGEA在多语言任务上的表现如何？

PANGEA在多语言任务上平均提升10.8分，表现优于许多现有模型，显示出其强大的跨语言能力。

PANGEA模型的开源有什么意义？

PANGEA模型的开源有望促进跨语言和文化的公平性与可访问性，推动多语言多模态模型领域的发展。

PANGEA在多元文化理解方面的表现如何？

PANGEA在多元文化理解方面表现出色，尤其在CVQA和xChat基准测试中显示出其优势。

PANGEA与其他模型相比有什么优势？

PANGEA在多个领域的表现与Gemini-1.5-Pro和GPT4o等专有模型相当甚至更好，显示出其作为竞争对手的实力。

🏷️

继续阅读

研究人员不满微软安全团队的做法公开爆出VS Code漏洞可窃取私有凭证
安全研究员Ammar Askar披露了Visual Studio Code中的高危漏洞，该漏洞可窃取GitHub OAuth Token，导致开发者仓库受...
开源维护者的困境
开源维护者面临困境，贡献者与维护者之间的社会契约逐渐崩溃。AI的介入虽然提供帮助，但也引发责任和审核标准的疑问。维护者的工作量激增，未处理的拉取请求不断增...
SKAI Intelligence与首尔大学AI研究院开展合作研究
SKAI Intelligence与首尔大学AI研究院签署合作备忘录，联合研究机器人感知与抓取技术，重点包括物理AI核心视觉、多物体识别与位姿估计，以提升...
被遗忘的70%：企业沟通终于开始关注非办公人员
8×8推出的8×8 Resolve平台专为非固定办公人员设计，通过短信、语音等渠道进行紧急通信，确保信息有效传达并记录响应情况。这一创新解决了传统沟通方式...
停止盲目信任AI生成的代码：一个React代码重构案例研究
Vibe Coding是一种软件开发实践，通过简单的英语描述需求，AI生成源代码。尽管AI工具强大，生成的代码可能存在错误和技术债务，开发者需仔细检查。文...
NVIDIA通过代理技能推动物理AI研究的新纪元，支持自动驾驶、机器人和视觉AI
NVIDIA推出新一代物理AI代理技能，支持自动驾驶、机器人和视觉AI研究。通过NVIDIA Cosmos 3，研究人员能够加速数据生成、模拟和政策训练，...