BriefGPT - AI 论文速递 ·

多样化的语义图像编辑与风格编码

💡 原文中文，约400字，阅读约需1分钟。

📝

内容提要

该研究提出了一种弱监督方法，利用稀疏语义地图和文本描述或属性来控制对象的形状和类别，以及局部和全局风格，同时引入语义注意力模块来支持文本描述的条件。为了增强场景的可控性，提出了一个两步生成方案来分解背景和前景。

🎯

关键要点

提出了一种弱监督方法，实现复杂场景下的有条件图像生成。
用户可以对场景中出现的对象进行精细控制。
利用稀疏语义地图控制对象的形状和类别。
使用文本描述或属性控制局部和全局风格。
引入语义注意力模块，支持文本描述的条件，计算成本与图像分辨率无关。
提出两步生成方案，分解背景和前景以增强场景可控性。
使用大词汇目标检测器产生的标签地图训练模型，能够访问未注释的数据。
在这样的设置下，报告了比全监督设置更好的 FID 得分。
展示了模型在 COCO 和 Visual Genome 等复杂数据集上操作场景的能力。

🏷️

继续阅读

ResULIC：语义残差编码与压缩感知扩散的超低码率图像压缩 | ICML 2025
图像压缩的核心目标是在尽可能低的码率下保留尽可能高的视觉质量。近年来，学习式图像压缩方法在客观指标和主观感知质量上取得了显著进展，但在极低码率场景下仍面临...
视频问诊延迟来自哪里：采集、编码、传输、渲染逐段拆解
视频问诊时画面卡住、声音和口型对不上，这些场景线上问诊的用户多少都遇到过。很多人第一反应是”网太差了”，实际上网络只是延迟链条上的一环。这篇把延迟从采集到渲...
实测 Doubao-Seed-Evolving：把 Windows 桌面图标做成一个会自己运转的小世界 - 努力的小雨
豆包 Seed 又更新了：一张永远“最新”的模型卡这次豆包推出的不是一个过段时间就会落后的固定版本，而是 Doubao-Seed-Evolving：一个...
Amazon Bedrock AgentCore Gateway 内置 Web 搜索工具实战
通过 MCP 将 Web Search Tool 集成到 AgentCore Gateway，为 AI Agents 提供实时网络搜索能力。
远程控制安卓工具 Scrcpy 4.1 发布，新增 VP8 / VP9 视频编码支持，让更多安卓设备可以投屏
著名的开源电脑控制安卓工具 Scrcpy 4.1 已经发布，新增支持 VP8 / VP9 视频编码，可以让不支持 H.264、H.265 或 AV1 编码...
GKE Security Blueprint Joins Growing List of Cloud AI Frameworks
Google Cloud has published a new blueprint setting out how organisations shou...

内容提要

关键要点

标签

继续阅读