Pico-Banana-400K是苹果研究人员开发的40万张图像数据集,旨在促进文本引导的图像编辑模型的创建。该数据集通过Nano-Banana修改真实照片,并使用Gemini-2.5-Pro进行质量筛选,填补了高质量可共享图像编辑数据集的空白,支持多种编辑类型的研究与训练。
Pico-Banana-400K是一个包含40万张图像的大规模数据集,旨在支持基于文本的图像编辑。该数据集通过Nano-Banana从OpenImages收集的真实照片生成多样的编辑对,确保高质量和多样性。它包括三个子集,支持多轮编辑、偏好研究和指令重写,为文本引导图像编辑模型提供基础。
北京大学与OpenBayes等团队提出了VIRES视频重绘方法,结合草图与文本引导,实现视频主体的重绘、替换与移除,确保时间一致性并提升视频质量,已入选CVPR 2025。
本研究提出了一种无反演的文本引导图像编辑框架,解决了图像输入反演不准确导致的错误传播问题。通过缓存机制和自适应细粒度掩蔽策略,实现了对图像相关区域的精准修改,提升了编辑的多样性和保真度。实验结果表明,该方法在定量指标和视觉质量上优于现有技术。
本文提出了LOCATEdit,一种优化的跨注意力机制,用于文本引导的图像编辑。该方法通过图的自注意力补丁关系,显著改善了图像区域的一致性,优于现有技术,展示了其有效性。
该研究提出了多种方法以提高3D视觉定位的准确性,包括2D语义辅助训练、语言引导物体检测和基于多视角变换器的方法。通过引入弱监督学习和密集三维视觉接地网络,研究在不同数据集上展示了显著的性能提升,并探讨了文本引导的三维视觉定位的进展与未来方向。
本文介绍了一种基于文本引导扩散模型的3D场景生成与编辑方法,重点解决3D一致性和局部编辑问题。研究提出了DragD3D和DragTex技术,实现高效的3D编辑和纹理处理,显著提高编辑速度和视觉质量。MVEdit框架结合多视角扩散技术,优化3D对象合成,提升生成质量。实验结果表明,该方法在多样性和质量上优于现有技术。
本文介绍了多种文本引导的图像编辑方法,如iEdit、Custom-Edit和CLIPInverter,旨在提升图像编辑的性能和准确性。研究提出了EditVal基准测试,以评估不同编辑方法的效果,并介绍了DeltaEdit框架和UltraEdit数据集,优化文本与图像的对齐和编辑质量。这些方法在多个领域表现优异,推动了文本引导图像编辑技术的发展。
FAGStyle是一种零-shot文本引导的图像风格转移方法,解决了现有方法的局限,能够保留源图像的语义内容。实验证明FAGStyle在多样化应用中表现出优越性。
该文章介绍了一种通过文本引导的三维人脸合成方法,通过解耦生成几何和纹理来提高生成效果,并利用生成几何作为纹理生成的条件,进一步提升一致性结果。同时,通过预训练扩散模型来更新面部几何或纹理以实现顺序编辑,并引入一致性保持正则化以防止无意更改。该方法在人脸合成方面具有优越性。
TextCLIP是一个用于无对抗训练的文本引导的图像生成和操作的统一框架,结合了CLIP的文本图像表示能力和StyleGAN的生成能力。在CelebA-HQ数据集上,TextCLIP生成的高分辨率图像表现优于现有方法。
近期的研究在文本引导的图像压缩方面取得了巨大潜力,但在像素级保真度方面有所降低。为了解决这个问题,研究人员开发了一种新的文本引导图像压缩算法,通过文本自适应编码和联合图像-文本损失的训练来利用文本信息。实验结果表明,该方法在像素级和感知质量方面表现出色。
该研究提出了一种通过文本引导的非刚性编辑的培训自由方法,以提高身份保留质量。该方法通过文本优化、潜在反转和时间步感知文本注入采样三个阶段实现。实验证明该方法有效地提高了身份保留、可编辑性和美学质量。
本研究提出了一种基于文本引导的多模态图像融合方法,通过结合红外和可见光图像的语义信息,为目标检测任务提供更准确和鲁棒的结果。研究使用代码增强融合动态的表达,并通过双层优化策略同时优化融合和检测问题,取得了与现有方法相比更高的检测平均精度和视觉上优越的融合结果。
该文章介绍了一种通过文本引导的三维人脸合成方法,通过解耦生成几何和纹理来提高生成效果,并利用预训练模型进行顺序编辑。实验结果显示该方法在人脸合成方面具有优越性。
本文介绍了一种聚合Transformer的方法(AGER),用于人-物互动(HOI)检测。AGER通过动态聚类和文本引导相结合,实现了在单阶段、端到端方式中的灵活应用。在HICO-Det数据集上,AGER取得了36.75的mAP,达到了最新的性能水平。
本文介绍了一种利用文本引导的潜在扩散模型,实现了零样本图像到图像的翻译。同时,提出了新的任务Skull2Animal,用于头骨与活体动物之间的翻译。通过Revive-2I基准模型,桥接了大领域差距,需要先有目标领域的先验知识。
完成下面两步后,将自动完成登录并继续当前操作。