量子位 ·

比NanoBanana更擅长中文和细节控制！兔展&北大Uniworld V2刷新SOTA

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

UniWorld-V2是兔展与北大团队推出的新一代图像编辑模型，基于UniWorld-R1框架，具备更强的中文理解和细节控制能力，超越多个顶尖模型，支持复杂指令和区域控制，推动图像编辑技术发展。

🎯

关键要点

UniWorld-V2是兔展与北大团队推出的新一代图像编辑模型，基于UniWorld-R1框架。
UniWorld-V2在中文理解和细节控制方面表现优异，超越多个顶尖模型。
该模型支持复杂指令和区域控制，推动图像编辑技术的发展。
UniWorld-R1框架是首个视觉强化学习框架，采用Diffusion Negative-aware Finetuning技术。
UniWorld-V2在GEdit-Bench和ImgEdit等基准测试中取得了SOTA成绩。
模型能够精准理解中文指令，渲染复杂艺术字体。
用户可以通过画框指定编辑区域，模型能严格遵守空间限制。
UniWorld-R1框架具有强大的通用性，提升了其他基础模型的性能。
UniWorld-V2在多个任务类型中表现优异，显示出强大的泛化能力。
研究团队的成果已在GitHub和Hugging Face平台公开发布，支持后续研究。

❓

延伸问答

UniWorld-V2与NanoBanana相比有什么优势？

UniWorld-V2在中文理解和细节控制方面表现更优，能够精准理解复杂指令并进行高难度的图像编辑。

UniWorld-R1框架的核心创新是什么？

UniWorld-R1框架首次将强化学习策略优化应用于图像编辑模型，采用Diffusion Negative-aware Finetuning技术，提升了训练效率和模型性能。

UniWorld-V2如何支持复杂指令的编辑？

用户可以通过简单的指令来指定编辑内容，模型能够理解并执行复杂的编辑任务，如渲染艺术中文字体。

UniWorld-V2在基准测试中的表现如何？

在GEdit-Bench和ImgEdit基准测试中，UniWorld-V2取得了SOTA成绩，分别获得了7.83和4.49的高分，超越了多个顶尖模型。

用户如何指定编辑区域？

用户可以通过画框（如红色矩形框）来指定编辑区域，模型能够严格遵守该空间限制进行编辑。

UniWorld-V2的研究成果在哪里可以找到？

研究团队的成果已在GitHub和Hugging Face平台公开发布，支持后续研究。

🏷️

继续阅读

Toots 419 2026 May.10 - May.16
文章讨论了股市投资的关键在于持有少数超级赢家，强调长期投资的重要性。提到巴菲特的投资策略，关注现金流和股东回报，同时强调市场周期的认知与策略调整，理性与独立判断的重要性。
富士胶卷的X Half相机降价300美元，更显俏皮
富士胶卷的X Half数码相机现已降价至549.99美元，促销至6月28日。该相机模拟半幅胶卷摄影，具备1800万像素拍摄能力，支持多种风格化选项，但缺乏...
ElliQ是一款令人惊讶的老年人陪伴机器人
ElliQ是一款为老年人设计的陪伴机器人，旨在帮助用户锻炼和社交。作者的母亲因帕金森病逐渐失去活力，ElliQ通过互动和鼓励，成功促使她重新参与活动，如太...
想清楚再干
文章探讨了人工智能（AI）对社会和创业的影响。作者指出，AI正在迅速改变生产力和经济结构，但许多人对此并不敏感。成功的创业者需要深入理解用户需求，而不仅仅...
华杉讲透《论语》--- 尧曰第二十
文章探讨了领导者应具备的德行与责任，强调仁德与智慧的重要性。领导者应无私、公平，建立良好的团队氛围，以身作则，关注团队发展，培养人才。知命、知礼、知言是君...
自助点餐的聊天机器人仅仅是个开始
麦当劳在2021年首次在自助点餐中引入AI聊天机器人，随后温迪和塔可钟等快餐连锁也开始采用。尽管AI旨在提高点餐效率，但调查显示55%的美国顾客更愿意与人...