Apple Machine Learning Research ·

4M-21：面向多任务和多模态的任意到任意视觉模型

💡 原文英文，约300词，阅读约需2分钟。

📝

内容提要

当前多模态和多任务模型如4M和UnifiedIO在处理多样输入和任务上有局限。本文通过在多模态和大规模数据集上训练，扩展了4M的能力。我们使用语义、几何模态和伪标签等进行训练，引入新模态提升交互和生成能力，并扩展到三十亿参数模型，保持性能。

🎯

关键要点

当前多模态和多任务模型如4M和UnifiedIO在处理多样输入和任务上存在局限。
本文通过在多模态和大规模数据集上训练，显著扩展了4M的能力。
训练包括多个语义和几何模态，以及来自最新模型的特征图和伪标签。
引入新模态提升了与模型的交互和生成能力，例如图像元数据和色彩调色板。
对各种模态进行标记化是关键步骤，包括图像、特征图、向量和结构化数据。
通过这些方法，扩展了多模态模型的能力，实现更细致和可控的生成能力。
成功将训练规模扩展到三十亿参数模型，观察到良好的扩展趋势。
模型能够从任意子集生成任何模态，且性能未受损。

❓

延伸问答

4M模型的主要局限性是什么？

4M模型在处理多样输入和任务时，通常受限于训练的模态和任务数量较少。

本文如何扩展4M模型的能力？

通过在多模态和大规模数据集上训练，使用多个语义和几何模态，以及引入新模态，显著扩展了4M的能力。

训练过程中使用了哪些新模态？

训练中引入了图像元数据和色彩调色板等新模态，以提升与模型的交互和生成能力。

标记化在模型训练中有什么重要性？

标记化是关键步骤，它使得各种模态能够被有效处理，包括图像、特征图和结构化数据。

扩展到三十亿参数模型的结果如何？

成功将训练规模扩展到三十亿参数模型，并观察到良好的扩展趋势，性能未受损。

4M模型如何实现任意模态的生成？

模型能够从任意子集生成任何模态，且通过特定的标记化方法保持性能。

🏷️

继续阅读

TeamCity 2026.1：命令行工具（CLI）、AI代理的模型上下文协议（MCP）支持、管道增强及更多功能
TeamCity 2026.1发布了新功能，包括命令行工具（CLI）、AI代理的模型上下文协议（MCP）支持和管道增强。此版本修复了高危安全漏洞（CVE-...
Thinking Machines 展示了近乎实时的AI语音和视频对话预览，并采用了新的交互模型
Thinking Machines公司正在开发一种新型AI交互模型，采用全双工架构，能够同时处理输入和输出，显著降低响应延迟。研究表明，该模型在交互质量和...
VeePod 可实现 3D 动态视觉播客品牌推广
AI 视频创作平台 VeePod 推出可定制的 3D 图形功能，帮助品牌在虚拟环境中动态推广。该功能结合实时虚拟制作与智能自动化，允许在播客中无缝集成赞助...
WPF 工业视觉检测系统：双工位（面阵 + 线扫）独立运行架构
本文介绍了一种基于WPF和MVVM架构的工业视觉检测系统，结合海康VisionMaster视觉引擎和度申相机SDK，解决了中小型视觉系统的架构混乱和维护成...
API门户是判断您的公司是否能够应对人工智能代理的最明确信号
文章讨论了企业在采用人工智能（AI）代理时，API管理和治理的重要性。成功的公司具备良好的工程实践和文化，能够有效应对技术转型。Lane强调，企业需重视A...
咨询公司CFO如何通过Databricks恢复利润
咨询公司面临盈利问题，2024年EBITDA利润率降至9.8%。尽管需求存在，收入增长放缓至4.6%。数据整合、报告和预测是主要痛点。通过Databric...