小红花·文摘

谷歌的DiffusionGemma比其他Gemma模型快4倍

The New Stack ·

谷歌的Gemini Diffusion模型利用扩散技术，在12秒内生成1万tokens，速度比传统模型快2000倍。该模型通过逐步优化噪声生成文本，支持非因果推理，提升生成质量和一致性。

12秒生成1万token！谷歌推出文本「扩散模型」Gemini Diffusion，研究员：演示都得降速看

量子位 ·

西北工业大学与香港中文大学联合开发的DiffRhythm模型，基于扩散技术，能够快速生成完整歌曲，提升音乐的连贯性和可理解性。用户只需提供歌词和风格提示，1分钟内即可生成音乐。

扩散模型×音乐生成，DiffRhythm 分分钟完成歌曲创作！低门槛部署大语言模型，MiniMind 数据集重磅开源

HyperAI超神经 ·

本文介绍了多种新型文本到语音（TTS）模型，如Diff-TTS、ProDiff和CM-TTS，旨在提高语音合成的速度和质量。这些模型利用扩散技术和优化方法，显著提升生成效率，部分模型在NVIDIA显卡上实现了实时速度的24倍。此外，研究探讨了语音合成中的语义控制和风格表达能力，提出了基于扩散的表达性语音合成（DEX-TTS），在多说话人数据集上表现优异。

方向性补丁交互：快速收敛与风格时间建模的文本到语音转换

BriefGPT - AI 论文速递 ·

该研究探讨了生成模型在视觉艺术创作中的应用，提出了Intelli-Paint和RAPHAEL等新方法，以提升图像生成的质量与效率。研究强调了扩散技术在艺术创作中的潜力，推动了艺术与技术的融合，拓展了创作表达的可能性。

Alfie：以无成本民主化 RGBA 图像生成

BriefGPT - AI 论文速递 ·

本文介绍了多种基于文本的可控视频生成模型，如Imagen Video、ControlVideo和Video-ControlNet。这些模型利用扩散技术生成高质量视频，具备细粒度控制能力，实现对象运动和相机移动的独立控制。研究提出了新的架构和优化方法，提升了视频生成的效率和质量，推动了计算机视觉的发展。

ControlNeXt：强大且高效的图像和视频生成控制

BriefGPT - AI 论文速递 ·

该论文提出了多种创新的图像检索和处理方法，包括像素检索基准、扩散技术、图像哈希方法和超像素聚类算法。这些方法在提高检索准确性、处理高维数据和增强可解释性方面表现优异，适用于多种实际应用。

基于空间和不确定性意识的精确快速像素检索的超图扩散

BriefGPT - AI 论文速递 ·

本文介绍了一种基于扩散技术和深度学习的新型高效变形攻击检测方法，经过严格实验验证，其性能优于现有方案。研究涵盖多光谱框架、视频序列分析及合成数据集，展示了在不同数据集上的高检测准确性和鲁棒性。

应对差异变形攻击检测中的主体相似性

BriefGPT - AI 论文速递 ·

本文介绍了一种新型图像上色框架，利用图像扩散技术和细粒度文本提示，实现高质量的彩色输出。该框架通过预训练的生成扩散模型进行微调，适用于历史图像上色和颜色增强，具有出色的视觉质量和颜色保真度。同时，研究探讨了图像合成模型的控制能力，提出了新的语义扩散引导框架，提升了用户对上色过程的控制水平。

扩散模型中的精细颜色引导及其在极低比特率图像压缩中的应用

BriefGPT - AI 论文速递 ·

探索 Sora：视频制作的魔法 [译]

宝玉的分享 ·

ADriver-I是一种基于多模态大语言模型和扩散技术的自主驾驶世界模型。通过预测当前帧的控制信号和历史的视觉-动作对，以及生成的控制信号来预测未来的帧，实现了自主驾驶。在nuScenes和私有数据集上的实验中，ADriver-I表现出卓越的性能。

DME-Driver: 自主驾驶中融合人类决策逻辑与 3D 场景感知

BriefGPT - AI 论文速递 ·

基于多模态大语言模型和扩散技术的自主驾驶世界模型ADriver-I表现卓越，通过交织的视觉-动作对预测当前帧的控制信号，并使用历史的视觉-动作对和生成的控制信号预测未来的帧，为未来自主驾驶和具身智能提供新的洞见。

ADriver-I: 无人驾驶的通用世界模型

BriefGPT - AI 论文速递 ·