MiniMax海螺视频团队首次开源了视觉分词器预训练框架VTP,解决了算力与生成效果不成正比的问题。研究表明,传统Tokenizer的重建精度与生成质量无关,而VTP强调理解力,提升生成性能。VTP展示了Tokenizer的Scaling Law,优化Tokenizer可有效提升生成系统性能。
谢赛宁团队的新论文iREPA源于一次推特辩论,研究空间结构对生成性能的影响。结果表明,空间结构对生成质量的影响超过全局语义,iREPA实现简单,仅需3行代码,显著提升性能。
本文提出了一种新方法Robo-SGG,通过布局嵌入编码器(LEE)提升受损图像的场景图生成效果,显著提高生成性能,对该领域具有重要影响。
扩散和流匹配模型在生成性能上表现优异,但采样步骤多,影响推理速度。ReFlow程序通过简化生成轨迹加速采样,但需迭代训练,导致样本质量下降。我们提出七项改进,并在CIFAR10、AFHQv2和FFHQ上进行实验,结合技术后在快速生成中实现了最先进的FID分数。
本研究提出了一种去噪分数蒸馏(DSD)方法,旨在提升扩散模型在低质量数据下的生成性能。通过在噪声样本上预训练并蒸馏为一步生成器,DSD显著改善了生成样本的质量。
本研究首次探讨链式思维推理在自回归图像生成中的应用,提出三种技术显著提升生成性能,尤其是通过潜力评估奖励模型使生成结果提高24%。
本研究提出了一种基于分段的注意力屏蔽方法,解决了GPT模型在处理用户提示时的注意力限制问题。通过非因果方式访问信息,提升了生成性能。实验结果表明,该方法在Llama和Qwen等模型中表现优异。
本研究通过引入基于知识图的RAG和自我校正机制,克服了文本到图像模型在复杂文化主题上的局限,显著提升了多种模型的生成性能。
AIxiv专栏促进学术交流,报道超过2000篇内容。斯坦福大学等机构提出的无训练指导框架TFG,解决了扩散模型的条件生成问题,提升了生成性能。TFG在多个领域表现优异,未来有望应用于药物设计等领域。
本研究提出了一种两阶段微调框架,有效解决了差分隐私下生成表格数据的挑战,显著提升生成性能并更合理利用隐私预算。
本研究探讨了思想树(ToT)在大型语言模型中的表现,发现生成器在ToT的成功中更为关键,而区分器的作用有限。不同规模模型的区分能力相似,但生成性能差异显著。
该论文研究了检索增强文本生成(RAG)技术,旨在提高大型语言模型(LLMs)的生成性能。RAG框架将LLMs与外部知识相结合,生成更具信息性和连贯性的文本。论文详细解释了RAG框架及其组成部分,讨论了各种架构和训练方法,以及实证研究中的见解和挑战。该论文全面调查了RAG用于LLMs的方法,提供了增强LLMs能力的有希望的方法。
使用Transition-aware weighted Denoising Score Matching(TDSM)训练带噪声标签的条件扩散模型,TDSM目标函数整合了得分网络的加权和,实验证明TDSM可以提高生成样本质量,改进生成性能。
完成下面两步后,将自动完成登录并继续当前操作。