本研究提出了一种骨架感知潜在扩散模型(SALAD),旨在解决文本驱动运动生成中关节、时间帧和文本表示的简化问题,从而显著提高文本与运动的对齐能力。
本研究提出了一种低成本的无调优方法,通过重塑上下文学习示例来提高大型语言模型(LLM)的对齐能力。研究表明,该方法在多个任务上显著提升了模型的安全性和准确性。
本研究提出AdaCM$^2$方法,旨在提高视频理解模型在处理长视频时的效率。通过自适应跨模态记忆压缩,AdaCM$^2$增强了视频与文本的对齐能力,并显著降低了内存使用。实验结果表明,该方法在多个数据集上表现优异,特别是在LVU数据集中,任务表现提高4.5%,GPU内存消耗减少65%。
完成下面两步后,将自动完成登录并继续当前操作。