MiniMax海螺视频团队首次开源了视觉分词器预训练框架VTP,解决了算力与生成效果不成正比的问题。研究表明,传统Tokenizer的重建精度与生成质量无关,而VTP强调理解力,提升生成性能。VTP展示了Tokenizer的Scaling Law,优化Tokenizer可有效提升生成系统性能。
谢赛宁团队的新论文iREPA源于一次推特辩论,研究空间结构对生成性能的影响。结果表明,空间结构对生成质量的影响超过全局语义,iREPA实现简单,仅需3行代码,显著提升性能。
本文提出了一种新方法Robo-SGG,通过布局嵌入编码器(LEE)提升受损图像的场景图生成效果,显著提高生成性能,对该领域具有重要影响。
扩散和流匹配模型在生成性能上表现优异,但采样步骤多,影响推理速度。ReFlow程序通过简化生成轨迹加速采样,但需迭代训练,导致样本质量下降。我们提出七项改进,并在CIFAR10、AFHQv2和FFHQ上进行实验,结合技术后在快速生成中实现了最先进的FID分数。
本研究提出了一种去噪分数蒸馏(DSD)方法,旨在提升扩散模型在低质量数据下的生成性能。通过在噪声样本上预训练并蒸馏为一步生成器,DSD显著改善了生成样本的质量。
本研究首次探讨链式思维推理在自回归图像生成中的应用,提出三种技术显著提升生成性能,尤其是通过潜力评估奖励模型使生成结果提高24%。
本研究提出了一种基于分段的注意力屏蔽方法,解决了GPT模型在处理用户提示时的注意力限制问题。通过非因果方式访问信息,提升了生成性能。实验结果表明,该方法在Llama和Qwen等模型中表现优异。
本研究通过引入基于知识图的RAG和自我校正机制,克服了文本到图像模型在复杂文化主题上的局限,显著提升了多种模型的生成性能。
AIxiv专栏促进学术交流,报道超过2000篇内容。斯坦福大学等机构提出的无训练指导框架TFG,解决了扩散模型的条件生成问题,提升了生成性能。TFG在多个领域表现优异,未来有望应用于药物设计等领域。
本研究提出了一种两阶段微调框架,有效解决了差分隐私下生成表格数据的挑战,显著提升生成性能并更合理利用隐私预算。
本研究探讨了思想树(ToT)在大型语言模型中的表现,发现生成器在ToT的成功中更为关键,而区分器的作用有限。不同规模模型的区分能力相似,但生成性能差异显著。
本文探讨了扩散模型在序列到序列文本生成中的应用,提出了DiffuSeq和DINOISER等新方法,显著提升了生成性能和效率。研究表明,扩散模型在机器翻译和文本摘要等任务中表现优异,能够加速训练和推理过程,提升生成质量。
本文介绍了一种零样本学习的图像字幕生成方法,通过解耦对象描述与语言模型,在未知领域有效生成字幕。研究表明,该方法在新颖对象字幕任务中表现良好,并提出了多种改进技术,如引入辅助输入、无参数关注模块和轻量级解码器,显著提升了生成性能。
本文介绍了可控文本生成技术的发展,重点在于通过新算法和框架(如DATG)实现对生成文本属性的精确控制。研究表明,该方法在毒性缓解和情感转换任务中显著提高了生成性能和文本流畅性,同时减少了困惑度。
本文探讨了上下文指导生成回复的语言模型在多轮对话中的应用,提出顺序指令调整以提升生成性能。研究表明,该方法在推理、多语言和多模态任务中优于传统基线,并通过自我优化调整(SRT)减少对人类注释的依赖,显著提高了模型表现。
该研究提出了一种新训练技术,利用受损数据训练扩散模型,并引入GSURE损失函数。研究表明,GSURE损失在特定条件下可实现与完全监督模型相当的生成性能,并通过优化目标函数的加权方案,显著提升了扩散模型在处理不同噪声水平数据时的性能。
使用Transition-aware weighted Denoising Score Matching(TDSM)训练带噪声标签的条件扩散模型,TDSM目标函数整合了得分网络的加权和,实验证明TDSM可以提高生成样本质量,改进生成性能。
完成下面两步后,将自动完成登录并继续当前操作。