BriefGPT - AI 论文速递 ·

PIXART-δ: 快速且可控的图像生成与潜在一致性模型

💡 原文中文，约500字，阅读约需1分钟。

📝

内容提要

最新的文本到图像扩散模型在文本到三维生成领域取得重大突破，通过文本提示和手绘草图创作准确忠实的三维场景，提高用户可控性和交互式控制能力。

🎯

关键要点

最新的文本到图像扩散模型在文本到三维生成领域取得重大突破。
该技术能够仅通过文本提示从零开始创作三维内容。
现有技术缺乏根据用户需求（如草图）进行交互式控制的能力。
首次尝试在条件上添加手绘草图的文本到三维生成，称为Control3D。
通过改进的2D条件扩散模型（ControlNet）来引导三维场景的学习。
每个三维场景视角与给定的文本提示和手绘草图对齐。
利用预训练的可微分照片到草图模型估计合成三维场景的草图。
估计的草图与给定草图在几何上保持一致，实现更好的可控生成。
广泛实验表明，提议能够生成与输入文本提示和草图紧密对齐的三维场景。

🏷️

继续阅读

我和「二次元老公」约上会了！全球首个可以玩的实时交互模型，Xmax X2.0发布
Xmax AI发布了实时交互视频模型X2.0，具备实时换装和角色变换功能，用户可与虚拟角色深度互动。该模型通过毫秒级响应和多种交互方式提升用户体验，适用于...
机器人也开始修炼「见闻色」，星尘智能发布具身基座模型 Lumo-2，让动作更快更准了
星尘智能发布了第二代具身基座模型Lumo-2和物理AI智能体Philia。Lumo-2通过预测物理变化提升机器人在家庭任务中的能力，涵盖22项家务。Phi...
GPT 5.6 来了，但 OpenAI 最大的杀招不是模型本身
OpenAI发布了GPT 5.6系列模型，包括旗舰Sol、均衡Terra和低价Luna，标志着AI从“回答工具”进化为“智能体”。新模式“Max”和“Ul...
GPT-5.6 来了，OpenAI 终于不卷“最强模型”，开始卷“最强产品线”了
笔者最近刷科技新闻的频率，已经从”每天看一眼”升级到了”每隔一小时刷一次”。没办法，2026 年 7 月的 AI 圈实在太热闹了——而最让笔者坐不住的，是...
模型上新｜Qwen-Audio-3.0-Realtime 如何让语音交互“懂倾听，更聪明”？
阿里语音交互模型Qwen-Audio-3.0-Realtime实现了自然化与智能化的语音交互，具备动态调整语气、情感共鸣和多模态双工控制能力。该模型在复杂...
派早报：Meta 被诉借助 AI 违规裁员、Google 被诉使用版权内容训练 Gemini 模型等
Meta因使用AI裁员被起诉，原告称其算法未考虑法律保护的假期和残障状态，导致不公裁员。Meta否认指控，称决策由人类做出，原告寻求禁令和独立审计。

内容提要

关键要点

标签

继续阅读