MotorEase: 移动应用程序界面中自动检测运动障碍可访问性问题

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

本文探讨了利用深度学习模型和多模态输入,通过屏幕识别和大型语言模型改善移动应用程序可访问性的方法。研究表明,该系统能够有效预测图像按钮标签,提升用户界面的可用性,并在可访问性测试中表现优异,展示了未来自动化可访问性研究的潜力。

🎯

关键要点

  • 使用屏幕识别推断移动应用程序的辅助功能元数据,以改善可访问性。
  • 通过实时修改文档对象模型和基础模型,提出了一种纠正网络可访问性违规的新方法,减少可访问性违规错误超过51%。
  • 开发深度学习模型LabelDroid,实现自动预测图像按钮标签,生成的标签质量高于真实Android开发人员的标签。
  • 评估Live/Motion照片与传统基于图像的方法在视觉辅助任务中的有效性,发现Live照片和运动照片在物体分类和VideoQA中表现优于单帧图像。
  • 使用基于大型语言模型的用户界面,提高运动受限用户的文本输入速度,节省操作时间。
  • 构建一个系统,使用大型语言模型和基于像素的用户界面理解模型进行可访问性测试,显示出提高工作效率的潜力。
  • 对RICO数据集进行标注,提出提高移动设备可访问性和自动化功能的方法,帮助用户更好地理解UI元素的功能。
  • 提出基于用户观察和启发式方法的用户中心自适应多模态融合方法,旨在实现可信任的以人为中心的人工智能。
  • 从移动用户界面中提取语义表示,采用大规模网络图像训练的视觉模型,改进检索模型并实现新的应用。
  • 提出新的MUI元素检测数据集MUI-zh和Adaptive Prompt Tuning模块,显著改善不同模式下的类别prompts。

延伸问答

如何通过深度学习改善移动应用程序的可访问性?

通过使用屏幕识别推断辅助功能元数据,并实时修改文档对象模型,深度学习模型可以有效减少可访问性违规错误。

LabelDroid模型的主要功能是什么?

LabelDroid模型能够自动预测图像按钮标签,其生成的标签质量高于真实Android开发人员的标签。

Live照片和运动照片在视觉辅助任务中的表现如何?

研究发现,Live照片和运动照片在物体分类和VideoQA任务中表现优于传统的单帧图像。

如何提高运动受限用户的文本输入速度?

通过基于大型语言模型的用户界面,采用高度缩写的文本输入形式,可以显著提高运动受限用户的输入速度。

RICO数据集在可访问性研究中有什么作用?

RICO数据集的标注和多模态输入方法有助于提高移动设备的可访问性和自动化功能,使用户更好地理解UI元素的功能。

文章中提到的自适应多模态融合方法有什么特点?

该方法基于用户观察和启发式,旨在提供可信任的以人为中心的人工智能,结合聚类和模型自适应技术。

➡️

继续阅读