Apple Machine Learning Research ·

利用手语模型引导手语注释

Q: 发布的伪注释数据有多少小时？

发布了超过300小时的伪注释数据。

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本研究开发了一种伪注释管道，利用手语视频和英语生成可能的注释，包括时间间隔和手势分类。通过建立基线模型，取得了在手语数据集上的最佳表现。专业翻译人员为ASL STEM Wiki的近500个视频进行了注释，并发布了300小时的伪注释数据，以支持手语生成系统的改进。

🎯

关键要点

本研究开发了一种伪注释管道，利用手语视频和英语生成可能的注释，包括时间间隔和手势分类。
建立了基线模型，在FSBoard和ASL Citizen数据集上取得了最佳表现。
专业翻译人员为ASL STEM Wiki的近500个视频进行了注释，提供了包含手势、分类和拼写符号的序列级注释。
发布了超过300小时的伪注释数据，以支持手语生成系统的改进。

🔎

延伸解读

手语数据注释的重要性

手语生成系统的有效性依赖于高质量的注释数据。尽管现有数据集如ASL STEM Wiki和FLEURS-ASL包含大量视频，但由于注释成本高昂，许多数据仍未充分利用。研究中开发的伪注释管道为解决这一问题提供了新思路，能够有效生成可能的注释，提升数据的可用性。

伪注释管道的创新

本研究的伪注释管道结合了手语视频和英语，利用稀疏预测和K-Shot LLM方法生成注释。这种创新方法不仅提高了注释的效率，还为手语生成系统的改进奠定了基础。通过发布300小时的伪注释数据，研究为后续的手语翻译和生成提供了丰富的资源。

专业翻译人员的角色

在手语注释过程中，专业翻译人员的参与至关重要。他们为近500个视频提供了序列级的手势和分类注释，确保了数据的准确性和可靠性。这些高质量的人工注释将作为基准，帮助评估和优化自动生成的注释效果。

❓

延伸问答

这项研究开发了什么样的手语注释管道？

研究开发了一种伪注释管道，利用手语视频和英语生成可能的注释，包括时间间隔和手势分类。

基线模型在手语数据集上的表现如何？

基线模型在FSBoard和ASL Citizen数据集上取得了最佳表现。

专业翻译人员为多少个视频进行了注释？

专业翻译人员为ASL STEM Wiki的近500个视频进行了注释。

发布的伪注释数据有多少小时？