💡
原文英文,约400词,阅读约需2分钟。
📝
内容提要
DeepSeek发布了更新版多模态模型Janus-Pro,提升了训练策略、数据规模和模型大小,增强了多模态理解和文本生成图像的能力。该模型分离了视觉编码,解决了稳定性和性能问题,并使用合成美学数据。在多个基准测试中,Janus-Pro表现优于之前的模型,支持384x384图像输入,并已在GitHub上开源。
🎯
关键要点
- DeepSeek发布了更新版多模态模型Janus-Pro,提升了训练策略、数据规模和模型大小。
- Janus-Pro分离了视觉编码,解决了稳定性和性能问题,增强了多模态理解和文本生成图像的能力。
- 该模型采用自回归框架,保持单一的变换器架构,增加了灵活性,减少了视觉编码器角色的冲突。
- Janus-Pro在多个基准测试中表现优于之前的统一多模态模型和一些任务特定模型。
- 该模型基于DeepSeek-LLM-1.5B和DeepSeek-LLM-7B,支持384x384图像输入。
- Janus-Pro-7B在GenEval和DPG-Bench等基准测试中优于OpenAI的DALL-E 3,得益于改进的训练过程、数据质量和模型大小。
- DeepSeek的Janus-Pro-7B被认为是文本生成图像领域的先进模型,具有统一、灵活和成本效益高的特点。
- Janus-Pro在GitHub上以MIT许可证开源,用户可以参考仓库获取设置说明。
➡️