该研究提出了TeLoGraF方法,结合图神经网络与流匹配技术,克服了现有时序逻辑规划的不足。实验结果显示,该方法在时序逻辑满足率和推断速度上优于传统算法。
本研究提出了一种对角解码方法,解决自回归Transformer模型在视频生成中的速度瓶颈。该方法通过利用时空相关性,实现帧内并行解码,推断速度提升最高可达10倍,同时保持视觉质量。
本研究提出了一种新颖的单视图图对比学习框架SIGNA,旨在解决现有方法对跨视图对比的依赖问题。SIGNA通过软邻域意识生成结构相关的嵌入对,在节点级任务中表现优异,推断速度提升109倍至331倍。
本文提出了一种新颖的区域感知扩散模型(RAD),有效解决了现有图像修复方法的不足。该模型通过不同的噪声调度实现局部区域的异步生成,推断速度比最新方法快100倍,并在多个数据集上表现优异。
本研究提出了一种名为AdaCache的适应性缓存方法,旨在降低生成高保真视频的计算成本。该方法通过缓存计算过程和制定缓存计划,提高了视频生成的质量与延迟平衡,并引入运动正则化方案,显著提升推断速度,最高可达4.7倍,而不影响生成质量。
本研究提出了一种新方法,通过张量化长输入序列,解决长序列建模中的长范围依赖性和计算效率问题。实验结果表明,张量化的注意力机制显著提高了推断速度和扩展能力。
本研究提出了Mamba模型,基于选择性机制的随机线性递归模型在输入控制下显著提高了推断速度和序列处理能力。通过与Transformer的比较,展示了状态空间模型(SSMs)在语言和音频等领域的优越性,并提出了多头状态空间架构(MH-SSM)作为优化序列数据处理的替代方案。
基于Transformer架构的模型在深度学习中应用广泛,但存在内容导向推理的弱点。研究提出了一种改进的选择性状态空间模型(Mamba),在推断速度和序列长度处理上表现优越,适用于语言、音频和基因组等多个领域。该模型在长序列建模中实现了最先进的性能,展示了状态空间模型的潜力和未来发展方向。
本研究探讨了大型语言模型的量化技术,发现4位量化模型在大多数基准测试中表现相当。量化影响推断速度,需要优化解码和内存。研究总结了量化对权重和激活函数的影响,并提出了提高模型效率的建议。
MobileVLM是专为移动设备设计的多模式视觉语言模型,性能与更大模型相当。在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上的推断速度分别为21.5个token和65.3个token每秒。
MobileVLM是一个专为移动设备设计的多模式视觉语言模型,具有高效的投影实现跨模态交互。在VLM基准测试中表现出与更大模型相当的性能。在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上获得了21.5个token和65.3个token每秒的推断速度。
该论文提出了Swift Parameter-free Attention Network (SPAN)用于单幅图像超分辨率任务,实现了高效的超分辨率模型,平衡了参数数量、推断速度和图像质量,达到了质量和速度的平衡。
ODEFormer是一种能够从单个解轨迹的观察中推断出符号形式的多维常微分方程系统的transformer。它在两个数据集上进行了广泛的评估,并且在噪音和不规律采样观测方面显示出明显改进的性能和更快的推断速度。代码、模型和基准数据集已公开发布。
研究提出了一种名为CLIP-Hand3D的3D手势估计器,能够将文本提示与不规则的详细姿势分布连接起来,并通过对姿势标签进行编码,形成相应的文本提示,并从中检索21个手关节的空间分布以形成姿势感知特征。实验结果表明,该模型在几个公开手部基准测试中实现了更快的推断速度和最先进的性能。
本文提出了两种高效且轻量级的编码器-解码器网络结构,用于实时深度估计。在单个RGB图像上实现更快的推断速度,同时保持准确性。在NVIDIA Jetson Nano上的运行速度为18.4&30.5 FPS,在NVIDIA Jetson AGX Orin上的运行速度为253.0&364.1 FPS,并在KITTI数据集上达到了最先进的准确性。
完成下面两步后,将自动完成登录并继续当前操作。