BriefGPT - AI 论文速递 ·

MotorEase: 移动应用程序界面中自动检测运动障碍可访问性问题

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文探讨了利用深度学习模型和多模态输入，通过屏幕识别和大型语言模型改善移动应用程序可访问性的方法。研究表明，该系统能够有效预测图像按钮标签，提升用户界面的可用性，并在可访问性测试中表现优异，展示了未来自动化可访问性研究的潜力。

🎯

关键要点

使用屏幕识别推断移动应用程序的辅助功能元数据，以改善可访问性。
通过实时修改文档对象模型和基础模型，提出了一种纠正网络可访问性违规的新方法，减少可访问性违规错误超过51%。
开发深度学习模型LabelDroid，实现自动预测图像按钮标签，生成的标签质量高于真实Android开发人员的标签。
评估Live/Motion照片与传统基于图像的方法在视觉辅助任务中的有效性，发现Live照片和运动照片在物体分类和VideoQA中表现优于单帧图像。
使用基于大型语言模型的用户界面，提高运动受限用户的文本输入速度，节省操作时间。
构建一个系统，使用大型语言模型和基于像素的用户界面理解模型进行可访问性测试，显示出提高工作效率的潜力。
对RICO数据集进行标注，提出提高移动设备可访问性和自动化功能的方法，帮助用户更好地理解UI元素的功能。
提出基于用户观察和启发式方法的用户中心自适应多模态融合方法，旨在实现可信任的以人为中心的人工智能。
从移动用户界面中提取语义表示，采用大规模网络图像训练的视觉模型，改进检索模型并实现新的应用。
提出新的MUI元素检测数据集MUI-zh和Adaptive Prompt Tuning模块，显著改善不同模式下的类别prompts。

❓

延伸问答

如何通过深度学习改善移动应用程序的可访问性？

通过使用屏幕识别推断辅助功能元数据，并实时修改文档对象模型，深度学习模型可以有效减少可访问性违规错误。

LabelDroid模型的主要功能是什么？

LabelDroid模型能够自动预测图像按钮标签，其生成的标签质量高于真实Android开发人员的标签。

Live照片和运动照片在视觉辅助任务中的表现如何？

研究发现，Live照片和运动照片在物体分类和VideoQA任务中表现优于传统的单帧图像。

如何提高运动受限用户的文本输入速度？

通过基于大型语言模型的用户界面，采用高度缩写的文本输入形式，可以显著提高运动受限用户的输入速度。

RICO数据集在可访问性研究中有什么作用？

RICO数据集的标注和多模态输入方法有助于提高移动设备的可访问性和自动化功能，使用户更好地理解UI元素的功能。

文章中提到的自适应多模态融合方法有什么特点？

该方法基于用户观察和启发式，旨在提供可信任的以人为中心的人工智能，结合聚类和模型自适应技术。

🏷️

标签

可访问性多模态输入深度学习用户界面移动自动化研究

➡️

继续阅读

苹果更新TestFlight应用对于参与大量测试的玩家现在可以使用搜索功能
# 软件资讯苹果更新 TestFlight 应用，对于参与大量测试的玩家来说，现在可以使用底部的搜索框快速找到应用。为避免误解所以需要说明，搜索功能仅可...
法院批准A社与作者和出版社的15亿美元和解协议初步解决A社使用盗版图书训练模型问题
#人工智能法院批准 A 社与作者和出版社的 15 亿美元和解协议，初步解决 A 社使用盗版书籍训练模型的集体诉讼案件。法庭文件显示，A 社建立拥有 70...
WAIC重磅成果｜仪电智算云在国家人工智能应用中试基地建设中展现全栈服务能力
Amazon Bedrock AgentCore Gateway 内置 Web 搜索工具实战
通过 MCP 将 Web Search Tool 集成到 AgentCore Gateway，为 AI Agents 提供实时网络搜索能力。
远程控制安卓工具 Scrcpy 4.1 发布，新增 VP8 / VP9 视频编码支持，让更多安卓设备可以投屏
著名的开源电脑控制安卓工具 Scrcpy 4.1 已经发布，新增支持 VP8 / VP9 视频编码，可以让不支持 H.264、H.265 或 AV1 编码...
GKE Security Blueprint Joins Growing List of Cloud AI Frameworks
Google Cloud has published a new blueprint setting out how organisations shou...