小红花·文摘

本研究提出了一种新的多层递归注意模型（MRAM），有效模拟人类视觉体系的层次结构，改善了注视与扫视的平衡，并在图像分类基准测试中超越了现有模型。

Emergence of Fixational and Saccadic Movements in a Multi-Level Recurrent Attention Model

BriefGPT - AI 论文速递 ·

本文介绍了MPIIGaze数据集及其在注视估计领域的研究进展，提出了多种深度学习模型（如GazeNet、Dilated-Net、FR-Net等），并通过实验验证了这些模型在不同条件下的准确性和鲁棒性。研究表明，最新模型在多个数据集上实现了显著的性能提升，推动了注视估计技术的发展。

通过融合全局信息的轻量级注视估计模型

BriefGPT - AI 论文速递 ·

本研究通过视频分析自闭症谱系障碍（ASD），提出多种深度学习模型和方法，提升早期诊断准确性。利用自然视频数据和亲子互动游戏协议，构建大规模数据集，实现高达89.6%的检测准确率，改善临床决策，并分析社交注视特征，提升诊断效率。

探索自闭症儿童的注视模式：聚类、可视化与预测

BriefGPT - AI 论文速递 ·

本研究解决了现有注视估计模型在不同领域之间的性能差异问题。提出的因果表示基础的领域泛化框架（CauGE）通过对抗训练和惩罚项提取领域不变特征，确保模型更有效地推断真实注视。该方法在注视估计领域泛化基准测试中实现了最先进的性能。

我们提出一个机械模型，模拟动态实景中的对象分割和凝视行为，使用场景分割进行对象导向的扫视决策，并使用视点对象递归地完善场景分割。通过贝叶斯滤波器来模拟这种完善过程，我们演示了这个模型如何与观察者的自由视觉行为密切相似，并通过大量模拟和消融研究显示了不确定性如何促进均衡的探索和语义对象线索对于形成对象导向注意的感知单元的重要性。此外，我们展示了我们模型的模块化设计如何允许扩展，如引入视觉动量或...

动态场景中的注视引导的不确定性和语义物体线索的重要性的机器人启发的扫视路径模型

BriefGPT - AI 论文速递 ·

本文介绍了一种新的注视引导图神经网络（GazeGNN），用于医学扫描的疾病分类，实验结果表明其在胸部X光数据集上表现优异。此外，研究提出了医学图像编码器和可视化知识引导解码器，解决了自动放射学报告生成中的多视角推理问题，提高了报告生成的准确性。

用于减轻医学图像中的捷径学习的注视导向视觉 GNN

BriefGPT - AI 论文速递 ·

本文设计了一个框架用于检测和预测视频中的人-物交互，提出了融合人类注视信息和视觉特征的时空变换器。研究了注视与深度学习的结合，开发了新模型Gazeformer和GHO-Diffusion，显著提升了图像字幕和人-物交互检测的性能，并通过实验验证了其在多个数据集上的有效性。

从观察者注视中学习：基于人物 - 物体交互识别的零样本注意预测

BriefGPT - AI 论文速递 ·

本文提出了一种基于预测编码模型的时间注意机制，通过在无法预测时关注视觉事件，减少能耗和计算量。研究表明，该机制可将数据通信量减少46.7%，计算活动减少43.8%。此外，介绍了新颖的神经网络架构和自监督学习方法，提升了视频字幕生成、眼动追踪和光流估计等任务的性能。

暗环境下采用时间编码事件驱动神经网络的注视向量估计

BriefGPT - AI 论文速递 ·

PrivatEyes是一种基于联邦学习和安全多方计算的凝视估算训练方法，保证个人凝视数据的隐私性。评估结果显示，隐私性改善不会影响准确性或增加计算成本。

PrivatEyes: 基于外貌的注视估计使用联邦安全多方计算

BriefGPT - AI 论文速递 ·

该论文介绍了一种基于几何的方法来解决真实时间凝视估计系统的挑战，通过生成准确的人脸和虹膜的三维地标，预测眼睛凝视方向，实现高精度、实时的眼睛凝视估计。

基于几何的低成本眼睛注视检测：使用基于深度学习产生的面部标志点

BriefGPT - AI 论文速递 ·

该研究使用GW数据集训练了两种机器学习算法，用于眼睛运动分类。分类器在注视和眼球运动方面表现良好，但在追踪运动方面表现较差。最佳模型显示分类不需要空间对齐。

Pose2Gaze: 使用眼体协调模型从全身姿势生成逼真的人类注视行为

BriefGPT - AI 论文速递 ·

该研究提出了一种名为GEAN的视频字幕模型，利用人眼注视追踪数据提供时空注意力，提高视频字幕生成任务的性能。该方法在多个数据集中展示了领先的性能，成为最先进的视频字幕生成方法。

理解和建模任务与环境对驾驶员注视分配的影响

BriefGPT - AI 论文速递 ·

该研究使用Transformer架构自动检测图像中的对象，并建立对象与注视的关联，实现全面的注视分析。该方法在各项指标上均取得了最新的成果，对注视目标检测提高了AUC的达到2.91%、注视距离减少了50%、注视对象分类和定位平均精度提高了11-13%。

Sharingan：一种基于 Transformer 的注视跟踪架构

BriefGPT - AI 论文速递 ·

本文提出了一种通过单目三维人脸重建的数据增强来扩展头部姿态和注视范围的方法，以解决当前模型在处理大角度重定向时的限制。同时，提出了一个能够在训练合成数据的情况下提供更好图像质量和未知对象身份保留的框架。实验证明，该方法在保持高图像质量的同时，显著提高了重定向角度精度，特别是在大角度重定向时。

基于合成数据的角度范围和身份相似性增强的注视和头部重定向

BriefGPT - AI 论文速递 ·

本文通过分析注视特征流形发现注视特征之间的测地距离与样本的注视差异一致。提出了与注视的物理定义相关的物理一致特征（PCF）和PCFGaze框架，通过PCF优化注视特征空间。实验结果表明，该框架缓解了过拟合问题，提高了跨领域注视估计的准确性，无需额外训练数据。注视特征的洞察力有潜力使其他具有物理意义的回归任务受益。