本研究提出了一种新的多层递归注意模型(MRAM),有效模拟人类视觉体系的层次结构,改善了注视与扫视的平衡,并在图像分类基准测试中超越了现有模型。
本研究提出了Gaze-LLE框架,利用DINOv2编码器特征来简化注视目标估计,准确预测人们的关注位置。该方法在多个基准测试中表现优异,并对设计选择进行了广泛分析。
本研究提出了一种新颖的轻量级注视估计模型FGI-Net,旨在克服现有模型在参数量、训练时间和收敛速度上的不足。FGI-Net有效融合全局信息,降低复杂性,提高准确性和收敛速度,实验结果表明其在多个数据集上表现优越。
本研究探讨了目标价值和普遍性对混合觅食任务中观察者行为的影响,开发了一种基于变压器的视觉觅食者模型,有效模拟人类的觅食和眼动行为。
本研究提出了一种新的TPP-Gaze方法,解决了现有模型在预测观察者视觉扫描路径时间动态方面的不足。该模型在五个数据集上表现优于现有方法,具有重要的应用潜力。
本研究提出GazeReward框架,利用眼动追踪数据为奖励模型提供隐式反馈,提升大语言模型与人类期望的对齐度。结果表明,该方法显著提高了模型在偏好数据集上的准确性,为AI与人类价值观对齐提供了新思路。
本论文研究了眼动追踪模式的学习过程,并提出了一种将involution与convolution相结合的深度学习模型。实验结果表明,具有三个involution层的IC方法优于先前的方法。
本研究解决了现有注视估计模型在不同领域之间的性能差异问题。提出的因果表示基础的领域泛化框架(CauGE)通过对抗训练和惩罚项提取领域不变特征,确保模型更有效地推断真实注视。该方法在注视估计领域泛化基准测试中实现了最先进的性能。
我们提出一个机械模型,模拟动态实景中的对象分割和凝视行为,使用场景分割进行对象导向的扫视决策,并使用视点对象递归地完善场景分割。通过贝叶斯滤波器来模拟这种完善过程,我们演示了这个模型如何与观察者的自由视觉行为密切相似,并通过大量模拟和消融研究显示了不确定性如何促进均衡的探索和语义对象线索对于形成对象导向注意的感知单元的重要性。此外,我们展示了我们模型的模块化设计如何允许扩展,如引入视觉动量或...
卫星任务和地球观测系统在环境监测和灾难发现中起重要作用。最新研究表明,使用深度神经网络进行土地利用监测和遥感图像分类是可行和准确的。视觉图神经网络在多类别和多标签分类方面的性能超过其他网络。
该研究收集了一个名为IG的凝视固定点数据集,包括来自740个不同互动类别的53万个凝视固定点。研究提出了零样本的面向互动注意力预测任务ZeroIA,并引入了交互式注意力模型IA来解决该问题。实验结果表明,IA模型在ZeroIA和完全监督的环境中都优于其他方法。研究还将面向互动注意力应用于互动识别任务,提高了现有最先进的HOI模型的性能和可解释性。
该研究提出了一种以注视为基础的视觉问题回答数据集(GazeVQA)和提高准确性的方法。实验结果显示该方法在某些情况下提高了VQA系统在GazeVQA上的表现,并识别了需要改进的典型问题。
本文研究了极低光条件下注视向量预测的挑战,并提出了一种新方法,通过将动态视觉传感器事件与灰度引导帧集成,生成连续编码图像输入到神经网络中。实验结果表明,该方法在低光视频中能够准确预测注视向量,展示了潜力。
PrivatEyes是一种基于联邦学习和安全多方计算的凝视估算训练方法,保证个人凝视数据的隐私性。评估结果显示,隐私性改善不会影响准确性或增加计算成本。
该论文介绍了一种基于几何的方法来解决真实时间凝视估计系统的挑战,通过生成准确的人脸和虹膜的三维地标,预测眼睛凝视方向,实现高精度、实时的眼睛凝视估计。
该研究使用GW数据集训练了两种机器学习算法,用于眼睛运动分类。分类器在注视和眼球运动方面表现良好,但在追踪运动方面表现较差。最佳模型显示分类不需要空间对齐。
该研究提出了一种名为GEAN的视频字幕模型,利用人眼注视追踪数据提供时空注意力,提高视频字幕生成任务的性能。该方法在多个数据集中展示了领先的性能,成为最先进的视频字幕生成方法。
该研究使用Transformer架构自动检测图像中的对象,并建立对象与注视的关联,实现全面的注视分析。该方法在各项指标上均取得了最新的成果,对注视目标检测提高了AUC的达到2.91%、注视距离减少了50%、注视对象分类和定位平均精度提高了11-13%。
本文提出了一种通过单目三维人脸重建的数据增强来扩展头部姿态和注视范围的方法,以解决当前模型在处理大角度重定向时的限制。同时,提出了一个能够在训练合成数据的情况下提供更好图像质量和未知对象身份保留的框架。实验证明,该方法在保持高图像质量的同时,显著提高了重定向角度精度,特别是在大角度重定向时。
本文通过分析注视特征流形发现注视特征之间的测地距离与样本的注视差异一致。提出了与注视的物理定义相关的物理一致特征(PCF)和PCFGaze框架,通过PCF优化注视特征空间。实验结果表明,该框架缓解了过拟合问题,提高了跨领域注视估计的准确性,无需额外训练数据。注视特征的洞察力有潜力使其他具有物理意义的回归任务受益。
完成下面两步后,将自动完成登录并继续当前操作。