谷歌推出Nano Banana 2(Gemini 3.1 Flash Image),为免费用户提供更强大的AI图像生成工具。该模型利用实时信息和网络搜索图像,能够生成复杂、准确的图像,支持可读文本和本地化翻译。用户可以灵活控制图像细节和分辨率,Nano Banana 2将取代Nano Banana Pro,成为谷歌AI视频工具的默认生成模型。
本研究提出了一种新的语义引导全局-局部协作网络(SGGLC-Net),旨在解决单幅图像超分辨率中的模糊与细节丢失问题。通过引入语义指导和全局-局部协作模块,该方法显著提升了图像细节质量,实验结果表明其在多个基准数据集上优于现有轻量级超分辨率方法。
本研究提出了一种无需训练的三组调优方法,旨在解决草图到场景生成中的多实例和细节缺失问题。该方法通过平衡提示和密集调优,显著提升了ControlNet模型的表现,使生成的图像更加准确和细致。
Flux.1是一款拥有120亿参数的开源AI图像生成器,超越了Midjourney和Dall-E 3,展现出卓越的图像细节和提示准确性。文章讨论了开发者从Stability AI转向Black Forest Labs的过程,以及Flux.1在生成逼真和艺术图像方面的能力。
本文介绍了一种新方法,通过预训练的文本到图像扩散模型实现盲超分辨率,克服固定尺寸限制,适应任意分辨率。引入像素感知模块和降级去除模块,提升图像细节和语义保真度。研究表明,该方法在合成和真实图像上均表现优越,能够生成高保真度图像。
谷歌推出了Zoom Enhance相机功能,适用于Pixel 8 Pro及即将发布的Pixel 9系列。该功能利用AI技术填补像素间隙,提升图像细节,实现高质量的后期缩放效果,让用户在未放大时也能获得更清晰的图像。
新成立的 Black Forest Labs 旨在推进高质量生成式深度学习模型,已完成 3100 万美元的种子轮融资。他们推出了三个变体模型 FLUX.1,具有丰富的图像细节和多样化风格,超越了其他竞争对手。Black Forest Labs 还计划推出 SOTA 文生视频模型。
Deshadow-Anything是一种模型,可以通过扩散模型沿着图像的边缘和纹理进行扩散,帮助去除图像中的阴影并保留图像的细节。该模型还设计了多自注意引导和自适应输入扰动来加速扩散的迭代训练速度。实验证明,这些方法可以有效提高图像修复性能。
本文介绍了一种通过单个真实图像和目标文本实现复杂文本语义编辑的新方法。该方法利用扩散模型生成与输入图像一致的编辑图像,涉及优化文本嵌入、微调模型和线性插值。实验表明,微调对保留图像细节至关重要,但存在编辑效果微弱和影响外部细节的局限性。未来的研究将集中在提高准确性和减少社会偏见上。
完成下面两步后,将自动完成登录并继续当前操作。