我们提出了一种无需训练的方法 CamTrol,可以通过图像或文本提示生成具有摄像机运动控制的视频。通过重新排列噪点像素,实现了摄像机运动的控制,能够生成动态内容的三维旋转视频。
该文章介绍了EgoCVR,一种用于评估细粒度复合视频检索的新基准测试方法。作者发现现有的框架无法实现高质量的时间视频理解,因此提出了一种简单的无需训练的方法来提高复合视频检索的效果,并在EgoCVR上取得了强大的结果。
本文提出了一种无需训练的解决方案,用于控制现有视频扩散模型的摄像机运动。该方法不需要有监督微调或自监督训练,只需一个图像或文本提示作为输入即可生成可控摄像机的视频。实验证明了该方法在控制生成视频的摄像机运动方面的鲁棒性。
本文介绍了一种名为HOMER的无需训练的方案,使用分而治之的算法划分长输入为可管理的块,并采用逐层合并的分层策略解决大语言模型的上下文限制问题,同时提出了优化的计算顺序以提高性能和内存效率。
该论文提出了一种无需训练且高效的模型生成和增强方案(MGE),生成模型仅需1%的时间,具有竞争力的泛化能力和对抗防御能力。
本文介绍了一种名为DiffSegmenter的无需训练的新方法,利用生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力。该方法通过将输入图像和候选类别输入到预训练条件潜在扩散模型,产生交叉注意力图直接用作分割分数,然后由自注意力图进一步细化和完成分割。实验证明,DiffSegmenter在开放词汇语义分割方面取得了令人印象深刻的结果。
完成下面两步后,将自动完成登录并继续当前操作。