该研究提出了一种名为HiTime的层次化多模态模型,旨在解决传统时间序列分类方法忽视动态时间信息和文本语义对齐的问题。通过双视角对比对齐模块和混合提示策略,该模型有效整合时间特征和文本语义,显著提升分类准确性。
本文介绍了一种层次化模型,能够从大规模文本库中推广教学知识,实现机器人对未见活动的零样本预测。研究涵盖多模态学习框架、视觉-文本匹配和神经符号学习等方法,展示了在视频动作预测任务中的有效性和高性能,尤其是在开放环境中的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。