量子位 ·

不卷参数卷架构，这个开源模型把图像理解和生成统一了

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

商汤推出了开源图像生成模型SenseNova-U1，具备高效的图文创作能力，支持复杂信息图和连贯的图文输出。其底层架构NEO-unify提升了创作效率。尽管存在局限，商汤将持续改进并已向公众开放该模型。

🎯

🔎

SenseNova-U1采用了NEO-unify架构，首次实现了图像理解与生成的统一。这种设计消除了传统模型中视觉编码器和生成器之间的分隔，使得模型在处理图文交互时更加高效。用户可以期待更自然的图文输出，尤其在复杂信息图和教程生成方面表现突出。

尽管SenseNova-U1在图文创作上表现优异，但仍存在上下文长度限制和复杂场景细节不稳的问题。商汤已明确表示这些短板将持续改进，用户在使用时需注意这些局限，尤其是在处理长文本或复杂图像时。

商汤将SenseNova-U1及其技能包开源，意味着用户可以自由使用和修改。这不仅降低了使用门槛，也促进了社区的创新与反馈。开发者可以基于此模型进行二次开发，推动图像生成技术的进一步发展。

❓

SenseNova-U1模型具备高效的图文创作能力，支持复杂信息图和连贯的图文输出。

NEO-unify架构将理解和生成整合在同一网络中，消除了传统模型中视觉编码器和生成器的分离，提高了效率。

SenseNova-U1在推理响应速度和高密度信息图生成方面表现出色，能够处理复杂的排版和信息分布。

SenseNova-U1的局限性包括上下文长度限制和复杂场景中的细节稳定性问题。

用户可以通过Hugging Face和GitHub下载SenseNova-U1模型，或直接使用SenseNova U1 Lite Skill进行体验。

商汤已将SenseNova-U1模型和技能包开源，用户可以直接使用和体验。

🏷️