小红花·文摘

苹果发布Pico-Banana-400K数据集以推动文本引导的图像编辑

InfoQ ·

Pico-Banana-400K：一个用于文本引导图像编辑的大规模数据集

Apple Machine Learning Research ·

在线教程丨北大施柏鑫团队联合贝式计算提出视频实例重绘方法 VIRES，多项性能指标达 SOTA

HyperAI超神经 ·

本研究提出了一种无反演的文本引导图像编辑框架，解决了图像输入反演不准确导致的错误传播问题。通过缓存机制和自适应细粒度掩蔽策略，实现了对图像相关区域的精准修改，提升了编辑的多样性和保真度。实验结果表明，该方法在定量指标和视觉质量上优于现有技术。

Training-Free Text-Guided Image Editing with Visual Autoregressive Model

BriefGPT - AI 论文速递 ·

本文提出了LOCATEdit，一种优化的跨注意力机制，用于文本引导的图像编辑。该方法通过图的自注意力补丁关系，显著改善了图像区域的一致性，优于现有技术，展示了其有效性。

LOCATEdit: Graph Laplacian Optimized Cross Attention Mechanism for Localized Text-Guided Image Editing

BriefGPT - AI 论文速递 ·

该研究提出了多种方法以提高3D视觉定位的准确性，包括2D语义辅助训练、语言引导物体检测和基于多视角变换器的方法。通过引入弱监督学习和密集三维视觉接地网络，研究在不同数据集上展示了显著的性能提升，并探讨了文本引导的三维视觉定位的进展与未来方向。

用于3D视觉定位的细粒度空间和语言损失

BriefGPT - AI 论文速递 ·

本文介绍了一种基于文本引导扩散模型的3D场景生成与编辑方法，重点解决3D一致性和局部编辑问题。研究提出了DragD3D和DragTex技术，实现高效的3D编辑和纹理处理，显著提高编辑速度和视觉质量。MVEdit框架结合多视角扩散技术，优化3D对象合成，提升生成质量。实验结果表明，该方法在多样性和质量上优于现有技术。

MvDrag3D：基于拖动的创意3D编辑通过多视图生成-重建先验

BriefGPT - AI 论文速递 ·

本文介绍了多种文本引导的图像编辑方法，如iEdit、Custom-Edit和CLIPInverter，旨在提升图像编辑的性能和准确性。研究提出了EditVal基准测试，以评估不同编辑方法的效果，并介绍了DeltaEdit框架和UltraEdit数据集，优化文本与图像的对齐和编辑质量。这些方法在多个领域表现优异，推动了文本引导图像编辑技术的发展。

基于增强驱动的度量方法：平衡文本导向图像编辑中的保留与修改

BriefGPT - AI 论文速递 ·

本文介绍了一种基于扩散模型的非监督图像转换方法，强调风格与内容的分离表征。研究表明，该方法在文本引导和图像引导的转换任务中优于现有模型，有效解决了内容保留与风格转换的平衡问题，并提出了多种新技术以提升图像生成质量。

FAGStyle：基于测地面特征增强的零样本文本引导扩散图像风格转移

BriefGPT - AI 论文速递 ·

本文介绍了多种文本引导的图像编辑方法，如Forgedit、FISEdit和AdapEdit，展示了它们在编辑能力和效率上的显著提升。研究还提出了基于文本到操作的模型和Imagen Editor系统，强调了对象遮罩处理对文本与图像对齐度的改善。这些方法在图像编辑任务中表现出卓越性能。

文本引导图像编辑的超参数调优

BriefGPT - AI 论文速递 ·

本文介绍了一种新方法，利用预训练扩散模型进行图像生成，能够在无额外输入的情况下根据提示文本恢复鲜艳颜色。该方法在图像重建质量、颜色保真度和多样性方面优于以往研究。通过软提示，模型从参考图像中学习并生成新实例，增强了文本引导的编辑能力。此外，该方法在文本到3D转换等其他任务中也表现出良好的适应性，证明了其有效性和灵活性。

ColorPeel: 通过扩散模型的颜色和形状解耦进行色彩提示学习

BriefGPT - AI 论文速递 ·

本研究提出了一种新型动态场景生成方法，利用视频生成模型克服多视图生成的局限性。通过文本引导的扩散模型生成高质量的3D场景，强调3D一致性和本地编辑。Bootstrap3D框架能够自动生成多视图图像，支持4D内容创建，提供增强的用户控制和高质量输出。

Director3D: 从文本生成真实世界摄像机轨迹和 3D 场景

BriefGPT - AI 论文速递 ·

本文提出了一种基于文本引导的图像压缩多模态机器学习方法，利用文本语义信息提升压缩性能。该方法通过图像-文本注意力模块和改进的损失函数，在低比特率下实现了优良的视觉效果，性能可与先进技术媲美或超越。

可压缩且可搜索：学习图像压缩的 AI 原生多模态检索系统

BriefGPT - AI 论文速递 ·

本文提出了一种基于文本引导的域泛化（TDG）框架，通过引入文本信息和多层次注意融合模块，提升了人脸反欺诈技术和医学图像分割的性能。实验结果表明，该方法在有限数据情况下表现优异，增强了分类和域适应能力，具有良好的泛化效果。

基于语言导向的领域通用医学图像分割

BriefGPT - AI 论文速递 ·

本文提出了一种基于文本引导的多模态图像融合方法，结合红外和可见光图像，提升目标检测的准确性和鲁棒性。研究引入了新的图像融合范式FILM，并利用ChatGPT提取关键视觉特征，取得了优异的融合效果。此外，开发了基于文本的图像处理框架，增强了图像恢复性能。实验结果表明，该方法在多个任务中表现出色。

基于语义文本指导的降级感知与交互图像融合技术

BriefGPT - AI 论文速递 ·

本研究提出了一种名为LatentWarp的零样本文本引导视频到视频转换框架，旨在实现视频生成的时空一致性。通过空间-时间自我监督学习和文本驱动运动转换方法，提升了视频分析和目标检测的性能，并解决了文本引导视频编辑中的时间不连贯问题。

FRESCO: 零样本视频转换的时空对应关系

BriefGPT - AI 论文速递 ·

该论文提出了TG-3DFace和M3Face等多种基于文本的3D人脸生成方法，利用对比学习和细粒度对齐技术，实现高质量、语义一致的人脸图像生成。研究展示了文本引导的三维人脸合成和编辑的优势，提升了几何与纹理的一致性，并引入新的生成框架和编辑策略，显著提高了人脸合成的精度和质量。

通过直接的跨模态映射和几何规则化进行快速的文本到 3D 感知人脸生成和操纵

BriefGPT - AI 论文速递 ·

本文介绍了一种创新的文本引导图像压缩方法，结合文本和图像特征，利用条件生成对抗网络提升重建图像质量。实验结果表明，该方法在低比特率下具有优越的视觉效果和语义保真度。

基于文本引导编码的神经图像压缩方法：兼顾像素水平和感知保真度

BriefGPT - AI 论文速递 ·

该研究提出了一种通过文本引导的非刚性编辑的培训自由方法，以提高身份保留质量。该方法通过文本优化、潜在反转和时间步感知文本注入采样三个阶段实现。实验证明该方法有效地提高了身份保留、可编辑性和美学质量。

无需训练的非刚性编辑中的时间感知采样的潜在倒置

BriefGPT - AI 论文速递 ·

本研究提出了一种基于文本引导的多模态图像融合方法，通过结合红外和可见光图像的语义信息，为目标检测任务提供更准确和鲁棒的结果。研究使用代码增强融合动态的表达，并通过双层优化策略同时优化融合和检测问题，取得了与现有方法相比更高的检测平均精度和视觉上优越的融合结果。

从文本到像素：一种针对红外和可见光图像融合的上下文感知语义协同解决方案

BriefGPT - AI 论文速递 ·