该研究提出了TeLoGraF方法,结合图神经网络与流匹配技术,克服了现有时序逻辑规划的不足。实验结果显示,该方法在时序逻辑满足率和推断速度上优于传统算法。
本研究提出了一种对角解码方法,解决自回归Transformer模型在视频生成中的速度瓶颈。该方法通过利用时空相关性,实现帧内并行解码,推断速度提升最高可达10倍,同时保持视觉质量。
本研究提出了一种新颖的单视图图对比学习框架SIGNA,旨在解决现有方法对跨视图对比的依赖问题。SIGNA通过软邻域意识生成结构相关的嵌入对,在节点级任务中表现优异,推断速度提升109倍至331倍。
本文提出了一种新颖的区域感知扩散模型(RAD),有效解决了现有图像修复方法的不足。该模型通过不同的噪声调度实现局部区域的异步生成,推断速度比最新方法快100倍,并在多个数据集上表现优异。
本研究提出了一种适应性缓存(AdaCache)方法,旨在降低生成高保真视频的计算成本,尤其是在长时间跨度上。该方法通过缓存计算和制定缓存计划,优化质量与延迟的平衡,并引入运动正则化(MoReg)方案,显著提升推断速度(最高可达4.7倍),而不影响生成质量。
本研究提出了一种新方法,通过张量化长输入序列,解决了长序列建模中注意力模型的依赖性和效率问题,显著提升了推断速度和扩展能力。
我们提出了MobileVLM,一个为移动设备设计的多模态视觉语言模型,包含1.4B和2.7B参数的语言模型及CLIP风格的视觉模型。评估结果显示,其性能与更大模型相当,推断速度在高通骁龙888和NVIDIA Jeston Orin上分别为21.5和65.3个token每秒。
本研究提出了一种新方法,通过建模图像序列的数据转移动态,显著提高了后验采样的效率。研究结果表明,该方法在保持性能的同时,实现推断速度提升25倍,并在严重运动情况下提高了PSNR达8%。
EL-attention是一种高效的无损注意力机制,通过扩展query并共享key和value来提高推断速度。
MobileVLM是专为移动设备设计的多模式视觉语言模型,性能与更大模型相当。在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上,MobileVLM的推断速度分别为21.5个token和65.3个token每秒。
MobileVLM是专为移动设备设计的多模式视觉语言模型,性能与更大模型相当。在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上的推断速度分别为21.5个token和65.3个token每秒。
MobileVLM是一个专为移动设备设计的多模式视觉语言模型,具有高效的投影实现跨模态交互。在VLM基准测试中表现出与更大模型相当的性能。在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上获得了21.5个token和65.3个token每秒的推断速度。
该论文提出了Swift Parameter-free Attention Network (SPAN)用于单幅图像超分辨率任务,实现了高效的超分辨率模型,平衡了参数数量、推断速度和图像质量,达到了质量和速度的平衡。
ODEFormer是一种能够从单个解轨迹的观察中推断出符号形式的多维常微分方程系统的transformer。它在两个数据集上进行了广泛的评估,并且在噪音和不规律采样观测方面显示出明显改进的性能和更快的推断速度。代码、模型和基准数据集已公开发布。
研究提出了一种名为CLIP-Hand3D的3D手势估计器,能够将文本提示与不规则的详细姿势分布连接起来,并通过对姿势标签进行编码,形成相应的文本提示,并从中检索21个手关节的空间分布以形成姿势感知特征。实验结果表明,该模型在几个公开手部基准测试中实现了更快的推断速度和最先进的性能。
本文提出了两种高效且轻量级的编码器-解码器网络结构,用于实时深度估计。在单个RGB图像上实现更快的推断速度,同时保持准确性。在NVIDIA Jetson Nano上的运行速度为18.4&30.5 FPS,在NVIDIA Jetson AGX Orin上的运行速度为253.0&364.1 FPS,并在KITTI数据集上达到了最先进的准确性。
完成下面两步后,将自动完成登录并继续当前操作。