小红花·文摘

腾讯开源的混元图像模型2.1支持2K高清生图，具备强大的生成效果和复杂语义理解能力，迅速成为Hugging Face全球第三热门，适用于多种视觉创作需求，助力设计师高效创作。

量子位 ·

DiT模型受到质疑，网友认为其数学和形式上存在错误，甚至怀疑是否使用了Transformer。作者谢赛宁回应称，科学进步需要发现模型的不足，强调实证方法的重要性，并反驳质疑，指出Tread模型与DiT无关，且DiT在生成效果上仍具优势。

量子位 ·

全景视频是虚拟现实的重要组成部分，提升用户体验。尽管制作需要专业设备，但生成式视频模型的进展降低了创作门槛。北京大学推出的PanoWan框架，通过纬度感知采样等技术，解决了全景视频生成中的畸变问题，并构建了包含1.3万视频的PanoVid数据集，提升了生成效果和编辑能力。

HyperAI超神经 ·

何恺明的新论文提出了一种名为Dispersive Loss的正则化方法，旨在提升扩散模型的生成效果。该方法无需预训练和数据增强，通过正则化中间表示来增强特征分散性，简化实现并提高生成质量。实验结果显示，Dispersive Loss在多种模型上显著改善生成效果，具有广泛的应用潜力。

量子位 ·

腾讯推出混元图像2.0，实现边说边画的实时图像生成，响应速度达到毫秒级。用户可通过文字或手绘输入，系统即时生成图像。该模型具备更大参数和高效图像编解码器，提升了生成效果和真实感。

量子位 ·

本文提出了AlignRAG框架，旨在解决检索增强生成（RAG）模型中推理轨迹与检索证据不对齐的问题。AlignRAG通过迭代的批评驱动对齐步骤，性能优于现有方法，并能无缝集成到RAG管道中，提升检索意识生成的效果。

BriefGPT - AI 论文速递 ·

elmagnifico ·

实时互动网 ·

本文提出了一种基于多模态大型语言模型的广告图像生成方法，旨在提升点击率（CTR）。通过预训练和强化学习，生成与商品特征相符且吸引用户的广告图像。实验结果表明，该方法在CTR预测和生成效果上优于现有技术。

京东科技开发者 ·

机器之心 ·

本研究提出了一种新方法，通过结合音频特征与视觉信息，生成自然声音对应的视觉场景图像。该方法在VEGAS和VGGSound数据集上显著提高了生成效果，展示了对生成过程的控制能力，证明了其适用性和通用性。

BriefGPT - AI 论文速递 ·

本研究探讨了大语言模型在检索增强生成中的文档检索顺序的影响，提出使用似然性作为评估工具，证明其与回答准确性相关，并提出优化提示选择与构建的方法，以提升生成效果。

BriefGPT - AI 论文速递 ·

本研究提出DomainGallery方法，旨在解决文本到图像模型在特定领域生成图像的局限性。通过少样本微调和多种技术，显著提升生成效果，实验结果表明其在多个领域的应用中表现优越。

BriefGPT - AI 论文速递 ·

本研究提出了AutoRAG框架，能够自动识别最佳的检索增强生成（RAG）模块组合，从而显著提升特定数据集的生成效果，实验数据可在GitHub上获取。

BriefGPT - AI 论文速递 ·

当前语言模型在生成长文本时常忽视早期上下文信息，可能是因为预训练中学到的注意力先验知识。为此，提出了一种“注意力排序”方法，通过对注意力进行排序来提升生成效果。这一方法在解码时对文档进行排序，改善生成效果，并指出使用现有语言模型进行检索增强生成的挑战。

BriefGPT - AI 论文速递 ·

本文提出了一种名为DDM的扩散模型，通过分解扩散过程来提高生成效果和速度，同时提出了一个新的DPM训练目标。实验结果表明DDM在更少的函数评估方面优于以前的DPM。

BriefGPT - AI 论文速递 ·

本文介绍了一种名为DDM的扩散模型，通过简化扩散过程来提高生成效果和速度。它使用显式转移概率近似图像分布，并通过标准维纳过程控制噪声路径。文章还提出了一个新的DPM训练目标，能够预测噪声和图像成分。实验结果表明，DDM在函数评估方面优于以前的DPM。

BriefGPT - AI 论文速递 ·