小红花·文摘

本研究探讨了使用自动注释工具ERRANT生成合成数据，以提升语法纠错模型的性能。实验表明，构建的合成数据集在多种语言的语法纠错任务中表现优异，尤其在混合语言环境中效果显著。

语法错误检测中的零射击跨语言迁移合成数据生成

BriefGPT - AI 论文速递 ·

在混合语言环境中，使用隐性框架的语音语言编组（LD）作为预处理系统是必要的。通过三种不同的框架实现了LD的方法，包括基于固定分割、基于变化点分割和E2E。使用微软CS数据集时，使用E2E框架的隐性LD性能下降至60.4%，主要是由于辅助语言的单语片段持续时间分布差异。为解决这个问题，提出了一种自监督的隐性语言表示方法，相对于x-vector表示，该方法实现了约63.9%的改进，并在E2E框架下取得了21.8的JER。

自我监督的口语语言表示在语音语言分离中的应用

BriefGPT - AI 论文速递 ·