GazeGPT: 使用凝视灵活背景人工智能增强人类能力的智能眼镜
原文中文,约400字,阅读约需1分钟。发表于: 。通过使用凝视相关的机制,GazeGPT 作为一种新的用户交互范式,利用眼动追踪技术帮助 LMM 理解用户关注的世界摄像头视野中的对象,显著提高了用户在狗品种分类任务中的准确性,被认为比头部或身体驱动的选择机制更自然,并且在未来的 AI 驱动个人助理中具有重要价值。
本文介绍了一种新型混合文本显著性模型(TSM),将阅读的认知模型和人类注视监督相结合,实现了人类注视引导的神经注意力与NLP任务的结合。该模型在QUora问题对语料库的释义生成任务中优于当前技术水平的PERFOMANCE BY MORE THAN 10% BLEU-4,并在Google句子压缩语料库中实现了最先进的性能。这种方法桥接了数据驱动模型和认知模型之间的差距,并展示了将人眼引导的神经关注集成到NLP任务中的新方法。