本研究提出了一种新的多层递归注意模型(MRAM),有效模拟人类视觉体系的层次结构,改善了注视与扫视的平衡,并在图像分类基准测试中超越了现有模型。
本文介绍了MPIIGaze数据集及其在注视估计领域的研究进展,提出了多种深度学习模型(如GazeNet、Dilated-Net、FR-Net等),并通过实验验证了这些模型在不同条件下的准确性和鲁棒性。研究表明,最新模型在多个数据集上实现了显著的性能提升,推动了注视估计技术的发展。
本研究通过视频分析自闭症谱系障碍(ASD),提出多种深度学习模型和方法,提升早期诊断准确性。利用自然视频数据和亲子互动游戏协议,构建大规模数据集,实现高达89.6%的检测准确率,改善临床决策,并分析社交注视特征,提升诊断效率。
本研究解决了现有注视估计模型在不同领域之间的性能差异问题。提出的因果表示基础的领域泛化框架(CauGE)通过对抗训练和惩罚项提取领域不变特征,确保模型更有效地推断真实注视。该方法在注视估计领域泛化基准测试中实现了最先进的性能。
我们提出一个机械模型,模拟动态实景中的对象分割和凝视行为,使用场景分割进行对象导向的扫视决策,并使用视点对象递归地完善场景分割。通过贝叶斯滤波器来模拟这种完善过程,我们演示了这个模型如何与观察者的自由视觉行为密切相似,并通过大量模拟和消融研究显示了不确定性如何促进均衡的探索和语义对象线索对于形成对象导向注意的感知单元的重要性。此外,我们展示了我们模型的模块化设计如何允许扩展,如引入视觉动量或...
本文介绍了一种新的注视引导图神经网络(GazeGNN),用于医学扫描的疾病分类,实验结果表明其在胸部X光数据集上表现优异。此外,研究提出了医学图像编码器和可视化知识引导解码器,解决了自动放射学报告生成中的多视角推理问题,提高了报告生成的准确性。
本文设计了一个框架用于检测和预测视频中的人-物交互,提出了融合人类注视信息和视觉特征的时空变换器。研究了注视与深度学习的结合,开发了新模型Gazeformer和GHO-Diffusion,显著提升了图像字幕和人-物交互检测的性能,并通过实验验证了其在多个数据集上的有效性。
本文研究了极低光条件下注视向量预测的挑战,并提出了一种新方法,通过将动态视觉传感器事件与灰度引导帧集成,生成连续编码图像输入到神经网络中。实验结果表明,该方法在低光视频中能够准确预测注视向量,展示了潜力。
PrivatEyes是一种基于联邦学习和安全多方计算的凝视估算训练方法,保证个人凝视数据的隐私性。评估结果显示,隐私性改善不会影响准确性或增加计算成本。
该论文介绍了一种基于几何的方法来解决真实时间凝视估计系统的挑战,通过生成准确的人脸和虹膜的三维地标,预测眼睛凝视方向,实现高精度、实时的眼睛凝视估计。
该研究使用GW数据集训练了两种机器学习算法,用于眼睛运动分类。分类器在注视和眼球运动方面表现良好,但在追踪运动方面表现较差。最佳模型显示分类不需要空间对齐。
该研究提出了一种名为GEAN的视频字幕模型,利用人眼注视追踪数据提供时空注意力,提高视频字幕生成任务的性能。该方法在多个数据集中展示了领先的性能,成为最先进的视频字幕生成方法。
该研究使用Transformer架构自动检测图像中的对象,并建立对象与注视的关联,实现全面的注视分析。该方法在各项指标上均取得了最新的成果,对注视目标检测提高了AUC的达到2.91%、注视距离减少了50%、注视对象分类和定位平均精度提高了11-13%。
本文提出了一种通过单目三维人脸重建的数据增强来扩展头部姿态和注视范围的方法,以解决当前模型在处理大角度重定向时的限制。同时,提出了一个能够在训练合成数据的情况下提供更好图像质量和未知对象身份保留的框架。实验证明,该方法在保持高图像质量的同时,显著提高了重定向角度精度,特别是在大角度重定向时。
本文通过分析注视特征流形发现注视特征之间的测地距离与样本的注视差异一致。提出了与注视的物理定义相关的物理一致特征(PCF)和PCFGaze框架,通过PCF优化注视特征空间。实验结果表明,该框架缓解了过拟合问题,提高了跨领域注视估计的准确性,无需额外训练数据。注视特征的洞察力有潜力使其他具有物理意义的回归任务受益。
本文介绍了一种基于智能手机的凝视追踪器的开源实现,利用机器学习技术实现了与专业设备相当准确度的眼动追踪解决方案。强调了智能手机凝视追踪在阅读理解挑战中的应用潜力,以及在视觉研究、无障碍增强和医疗应用等领域的益处。
本研究提出了NPF-200数据集,用于研究非写实视频中的眼动感知。研究了自然图像与非写实数据的差异,并提出了NPSNet模型,用于非写实显著性检测。该模型展现了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。