本研究提出了一种轻量级视觉语言模型AppVLM,旨在解决手机助手的适应性和计算成本问题,显著提升任务完成率和行动预测准确性。
我们开发了PlausiVL,一个视频语言模型,通过反事实学习和行动重复损失来研究行动序列的可行性。模型利用时态逻辑和动词-名词约束生成不可信的行动序列,以区分可行与不可行的序列。在Ego4D和EPIC-Kitchens-100数据集上的评估显示,该方法在行动预测任务中有显著提升。
ProActive是一种用于建模活动序列中行动时间分布的框架,解决行动预测、序列目标预测和序列生成等问题。实验证明ProActive在行动和目标预测方面准确性显著提高,并首次应用了端到端行动序列生成。
完成下面两步后,将自动完成登录并继续当前操作。