推测解码是一种加速大模型推理的方法,解决了显存带宽限制问题。通过一次性处理多个token,提升生成效率。经典算法如Medusa和EAGLE通过多头预测和特征自回归优化性能,而Lookahead解码则利用当前模型进行并行预测,无需额外模型。整体上,推测解码显著提高了解码速度和准确性,适用于多种场景。
本文介绍了“原则性粗粒度接受”(PCG)方法,旨在加速自回归语音生成。PCG通过在声学相似性组(ASGs)层面验证提议,提高了语音生成的接受率和吞吐量,同时保持了语音的可懂性和说话者相似性,克服了传统精确匹配的限制,提升了生成效率。
使用v0时,清晰的提示能显著提升生成效率和代码质量。最佳提示应包括产品表面、使用背景和约束条件,具体描述可减少不必要的功能和代码,从而提高生成速度和可维护性。
何恺明团队提出的双向归一化流(BiFlow)框架有效解决了传统归一化流生成效率低的问题,通过解耦前向与逆向过程,生成速度提升了两个数量级,实验结果在ImageNet上表现优异。该项目由三位来自清华和MIT的本科生主导。
英伟达韩松团队推出新语言模型Jet-Nemotron,基于后神经架构搜索,生成效率提升53倍,准确率超越多款模型,尤其在数学、常识和编码任务中表现优异,计划开源代码和模型。
ADiT模型通过结合潜在表示与Transformer技术,突破了原子系统建模的周期性与非周期性限制,显著提高了生成效率与可扩展性,为新材料和药物设计提供了重要支持。
普林斯顿大学与Meta合作推出LinGen框架,通过MATE模块将视频生成复杂度降低至线性,显著提升生成效率。LinGen在视频质量上优于DiT,生成速度最高可加速15倍,且适应性强,能处理更长的token序列。
本研究提出CAD-Coder,一个视觉-语言模型,能够从视觉输入直接生成可编辑的CAD代码,从而提高生成效率和准确性,简化工程师和设计师的工作流程。
本研究提出了ProtFlow框架,旨在解决蛋白质序列设计中的功能不足和效率低下问题。通过压缩和光滑潜在空间,ProtFlow显著提高了生成效率和质量,实验结果表明其在多种设计任务中优于传统方法,具有广泛的应用潜力。
清华大学研究团队提出了VideoScene,一种专注于3D场景生成的“一步式”视频扩散模型。该模型通过3D跃迁流蒸馏策略加速推理,并结合动态降噪策略,提高生成效率和质量。实验结果表明,VideoScene在速度和质量上均优于现有模型,具有广泛的应用潜力。
本文介绍了一种新型小分子生成图扩散模型DMol,该模型在有效性上比现有的DiGress模型提升约1.5%。DMol通过修改目标函数和引入“图噪声”调度策略,显著减少扩散步骤数量和运行时间,提升生成效率。
本研究提出FlexiDepth,解决了层跳过方法未考虑计算需求变化的问题。它动态调整Transformer层数,在Llama-3-8B模型中成功跳过8层,保持基准性能并提升生成效率。
本研究提出了一种新的统一离散扩散模型UniDisc,旨在解决多模态生成模型在图像与文本理解和生成中的不足,显著提升样本质量、多样性控制和生成效率。
本文研究了现有CAD命令序列生成方法的局限,提出了一种基于CAD几何引擎的强化学习训练环境。该方法支持多种操作,显著提高了命令序列生成效率,达到传统方法的39倍,且生成质量优秀。
Inception Labs 发布了首个商业级扩散大型语言模型 Mercury,速度超过每秒1000个token,性能优于现有模型,显著提高生成效率并降低成本,受到广泛关注。
本研究提出了一种新颖的非最优运输流模型,解决三维点云生成中的组合不变性问题,显著提高了生成效率,并在ShapeNet基准测试中超越了现有方法。
本研究提出了一种名为下一块预测的半自回归框架,旨在解决自回归视频生成中的单向依赖和推理速度慢的问题,从而显著提升生成效率和空间依赖捕捉能力。
本研究提出了一种名为“提升与跳过”的无引导扩散方法,旨在提高少数样本的生成能力。该方法通过对标准生成过程进行两个小改动,显著提升了生成效率,优于传统的引导方法。
本研究结合ChatGPT与基本搜索技术,提升了形式证明生成的效率和可及性,最佳模型的通过率达到31.15%,为AI辅助的形式证明生成提供了新见解。
本文提出了一种名为循环扩散的方法,解决了大规模参数生成的难题。该方法通过将训练参数划分为不重叠部分,利用循环模型学习其关系,从而提高生成效率。研究表明,该方法在多个架构和任务上表现出色,增强了参数生成的实用性。
完成下面两步后,将自动完成登录并继续当前操作。