该研究探讨了自动饮食评估系统中视觉识别食物的核心功能,并使用深度多标签学习方法评估了几种最先进的神经网络模型。初步结果在挑战性数据集上表现有希望,为未来的探索奠定了坚实的基础。
本文介绍了一种新的运动估计方法MaskFlow,能够准确估计小目标、大位移和外观剧变情况下的运动场。通过利用物体级特征和分割,MaskFlow近似物体的平移运动场,并提出了一种有效的方法将不完整的平移运动场结合到后续的运动估计网络中进行精化和补全。作者还提供了一个具有运动场Ground Truth的新的挑战性合成数据集,并为对象实例匹配和相应分割掩码提供了额外的Ground Truth。实验证明,MaskFlow在新的挑战性数据集上优于现有方法,并且在FlyingThings3D基准数据集上也能产生可比较的结果。
本文提出了一种用于多步骤多模态推理的方法,系统1提取视觉信息,系统2深入推理。实验证明,该方法在图表数据集上表现出竞争力,在少量数据上通过微调系统2模块,准确性得到进一步提升,并在具有人工提出问题的挑战性数据集上超过最佳全监督端到端方法5.7%以及具有FlanPaLM(540B)的流水线方法7.5%。
完成下面两步后,将自动完成登录并继续当前操作。