Pico-Banana-400K是苹果研究人员开发的40万张图像数据集,旨在促进文本引导的图像编辑模型的创建。该数据集通过Nano-Banana修改真实照片,并使用Gemini-2.5-Pro进行质量筛选,填补了高质量可共享图像编辑数据集的空白,支持多种编辑类型的研究与训练。
Pico-Banana-400K是一个包含40万张图像的大规模数据集,旨在支持基于文本的图像编辑。该数据集通过Nano-Banana从OpenImages收集的真实照片生成多样的编辑对,确保高质量和多样性。它包括三个子集,支持多轮编辑、偏好研究和指令重写,为文本引导图像编辑模型提供基础。
北京大学与OpenBayes等团队提出了VIRES视频重绘方法,结合草图与文本引导,实现视频主体的重绘、替换与移除,确保时间一致性并提升视频质量,已入选CVPR 2025。
本研究提出了一种无反演的文本引导图像编辑框架,解决了图像输入反演不准确导致的错误传播问题。通过缓存机制和自适应细粒度掩蔽策略,实现了对图像相关区域的精准修改,提升了编辑的多样性和保真度。实验结果表明,该方法在定量指标和视觉质量上优于现有技术。
本文提出了LOCATEdit,一种优化的跨注意力机制,用于文本引导的图像编辑。该方法通过图的自注意力补丁关系,显著改善了图像区域的一致性,优于现有技术,展示了其有效性。
该研究提出了多种方法以提高3D视觉定位的准确性,包括2D语义辅助训练、语言引导物体检测和基于多视角变换器的方法。通过引入弱监督学习和密集三维视觉接地网络,研究在不同数据集上展示了显著的性能提升,并探讨了文本引导的三维视觉定位的进展与未来方向。
本文介绍了一种基于文本引导扩散模型的3D场景生成与编辑方法,重点解决3D一致性和局部编辑问题。研究提出了DragD3D和DragTex技术,实现高效的3D编辑和纹理处理,显著提高编辑速度和视觉质量。MVEdit框架结合多视角扩散技术,优化3D对象合成,提升生成质量。实验结果表明,该方法在多样性和质量上优于现有技术。
本文介绍了多种文本引导的图像编辑方法,如iEdit、Custom-Edit和CLIPInverter,旨在提升图像编辑的性能和准确性。研究提出了EditVal基准测试,以评估不同编辑方法的效果,并介绍了DeltaEdit框架和UltraEdit数据集,优化文本与图像的对齐和编辑质量。这些方法在多个领域表现优异,推动了文本引导图像编辑技术的发展。
本文介绍了一种基于扩散模型的非监督图像转换方法,强调风格与内容的分离表征。研究表明,该方法在文本引导和图像引导的转换任务中优于现有模型,有效解决了内容保留与风格转换的平衡问题,并提出了多种新技术以提升图像生成质量。
本文介绍了多种文本引导的图像编辑方法,如Forgedit、FISEdit和AdapEdit,展示了它们在编辑能力和效率上的显著提升。研究还提出了基于文本到操作的模型和Imagen Editor系统,强调了对象遮罩处理对文本与图像对齐度的改善。这些方法在图像编辑任务中表现出卓越性能。
本文介绍了一种新方法,利用预训练扩散模型进行图像生成,能够在无额外输入的情况下根据提示文本恢复鲜艳颜色。该方法在图像重建质量、颜色保真度和多样性方面优于以往研究。通过软提示,模型从参考图像中学习并生成新实例,增强了文本引导的编辑能力。此外,该方法在文本到3D转换等其他任务中也表现出良好的适应性,证明了其有效性和灵活性。
本研究提出了一种新型动态场景生成方法,利用视频生成模型克服多视图生成的局限性。通过文本引导的扩散模型生成高质量的3D场景,强调3D一致性和本地编辑。Bootstrap3D框架能够自动生成多视图图像,支持4D内容创建,提供增强的用户控制和高质量输出。
本文提出了一种基于文本引导的图像压缩多模态机器学习方法,利用文本语义信息提升压缩性能。该方法通过图像-文本注意力模块和改进的损失函数,在低比特率下实现了优良的视觉效果,性能可与先进技术媲美或超越。
本文提出了一种基于文本引导的域泛化(TDG)框架,通过引入文本信息和多层次注意融合模块,提升了人脸反欺诈技术和医学图像分割的性能。实验结果表明,该方法在有限数据情况下表现优异,增强了分类和域适应能力,具有良好的泛化效果。
本文提出了一种基于文本引导的多模态图像融合方法,结合红外和可见光图像,提升目标检测的准确性和鲁棒性。研究引入了新的图像融合范式FILM,并利用ChatGPT提取关键视觉特征,取得了优异的融合效果。此外,开发了基于文本的图像处理框架,增强了图像恢复性能。实验结果表明,该方法在多个任务中表现出色。
本研究提出了一种名为LatentWarp的零样本文本引导视频到视频转换框架,旨在实现视频生成的时空一致性。通过空间-时间自我监督学习和文本驱动运动转换方法,提升了视频分析和目标检测的性能,并解决了文本引导视频编辑中的时间不连贯问题。
该论文提出了TG-3DFace和M3Face等多种基于文本的3D人脸生成方法,利用对比学习和细粒度对齐技术,实现高质量、语义一致的人脸图像生成。研究展示了文本引导的三维人脸合成和编辑的优势,提升了几何与纹理的一致性,并引入新的生成框架和编辑策略,显著提高了人脸合成的精度和质量。
本文介绍了一种创新的文本引导图像压缩方法,结合文本和图像特征,利用条件生成对抗网络提升重建图像质量。实验结果表明,该方法在低比特率下具有优越的视觉效果和语义保真度。
该研究提出了一种通过文本引导的非刚性编辑的培训自由方法,以提高身份保留质量。该方法通过文本优化、潜在反转和时间步感知文本注入采样三个阶段实现。实验证明该方法有效地提高了身份保留、可编辑性和美学质量。
本研究提出了一种基于文本引导的多模态图像融合方法,通过结合红外和可见光图像的语义信息,为目标检测任务提供更准确和鲁棒的结果。研究使用代码增强融合动态的表达,并通过双层优化策略同时优化融合和检测问题,取得了与现有方法相比更高的检测平均精度和视觉上优越的融合结果。
完成下面两步后,将自动完成登录并继续当前操作。