Apple Machine Learning Research ·

基于文本条件的JEPA用于学习语义丰富的视觉表示

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文介绍了一种视觉自监督学习方法——文本条件JEPA（TC-JEPA），该方法通过图像标题减少特征预测的不确定性。TC-JEPA利用细粒度文本调节器，使图像特征更具语义意义，从而提升下游任务的表现和训练稳定性。该方法在视觉理解和推理任务中优于对比学习，展示了新的基于特征预测的视觉-语言预训练范式。

🎯

🔎

TC-JEPA通过引入细粒度文本调节器，显著降低了特征预测的不确定性。这种方法使得图像特征与文本信息紧密结合，从而提升了特征的语义意义。这一创新为视觉自监督学习提供了新的思路，尤其在处理复杂的视觉理解任务时，能够更好地捕捉细节和上下文信息。

TC-JEPA在视觉理解和推理任务中表现优于传统的对比学习方法。这表明，基于特征预测的预训练范式可能在处理需要细致语义理解的任务时更具优势。研究者和开发者在选择学习方法时，可以考虑TC-JEPA作为一种更有效的替代方案，尤其是在需要高精度的视觉任务中。

TC-JEPA不仅提升了训练的稳定性，还改善了下游任务的表现。这意味着在实际应用中，采用TC-JEPA进行预训练的模型在执行特定任务时，能够更快收敛并达到更高的准确率。因此，研究者在设计视觉模型时，应关注TC-JEPA的应用潜力，以提高模型的整体性能。

❓

文本条件JEPA（TC-JEPA）是一种视觉自监督学习方法，通过图像标题减少特征预测的不确定性。

TC-JEPA利用细粒度文本调节器，通过计算输入文本标记的稀疏交叉注意力来调节预测的图像特征。

TC-JEPA提升了下游任务的表现和训练稳定性，尤其在视觉理解和推理任务中表现优于对比学习。

TC-JEPA展示了新的基于特征预测的视觉-语言预训练范式，优于对比学习，特别是在需要细粒度视觉理解和推理的任务中。

TC-JEPA通过减少特征预测的不确定性，提升了训练的稳定性。

TC-JEPA适用于视觉理解和推理任务，尤其是那些需要细粒度视觉信息的应用场景。

🏷️