本研究提出了JointDiT模型,通过扩散变换器增强RGB和深度的联合建模。采用自适应调度权重和不平衡时间步采样策略,JointDiT显著提升了图像生成和深度估计的性能,展现了在多种生成任务中的应用潜力。
大型语言模型通过自监督预训练在自然语言处理上取得了显著进展。研究者们探索了复杂的语音标记化方法,以离散化连续语音信号。现有方法往往损失语义或声学信息。本文提出将梅尔滤波器通道离散化为强度箱(dMel),在语音识别和合成中表现优于其他方法,验证了语音与文本联合建模的有效性。
当前语言模型在理解复杂和长期任务时存在困难。该论文通过联合建模视频序列的时间信息和语言的静态图像,实现了更广泛的人工智能能力。
完成下面两步后,将自动完成登录并继续当前操作。