比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

UniWorld-V2是兔展与北大团队推出的新一代图像编辑模型,基于UniWorld-R1框架,具备更强的中文理解和细节控制能力,超越多个顶尖模型,支持复杂指令和区域控制,推动图像编辑技术发展。

🎯

关键要点

  • UniWorld-V2是兔展与北大团队推出的新一代图像编辑模型,基于UniWorld-R1框架。
  • UniWorld-V2在中文理解和细节控制方面表现优异,超越多个顶尖模型。
  • 该模型支持复杂指令和区域控制,推动图像编辑技术的发展。
  • UniWorld-R1框架是首个视觉强化学习框架,采用Diffusion Negative-aware Finetuning技术。
  • UniWorld-V2在GEdit-Bench和ImgEdit等基准测试中取得了SOTA成绩。
  • 模型能够精准理解中文指令,渲染复杂艺术字体。
  • 用户可以通过画框指定编辑区域,模型能严格遵守空间限制。
  • UniWorld-R1框架具有强大的通用性,提升了其他基础模型的性能。
  • UniWorld-V2在多个任务类型中表现优异,显示出强大的泛化能力。
  • 研究团队的成果已在GitHub和Hugging Face平台公开发布,支持后续研究。
➡️

继续阅读