小红花·文摘

本研究提出了一种新颖的跨语言逆解析方法，利用多语言预训练模型的表示几何，解决零资源语义解析中的迁移挑战。实验结果表明，该方法显著提高了目标语言的表现，并保持了语义的完整性。

跨语言逆解析：基于意义表示的发话合成用于零资源语义解析

BriefGPT - AI 论文速递 ·

本文探讨了多语言预训练模型的效率，强调基于子词的模型在内存使用、推理速度和数据健壮性方面的优势。研究表明，大型语言模型（LLM）和字符噪声注入方法能有效翻译低资源语言，并提出多种技术以改善其性能。此外，跨语言迁移学习的重要性也得到了揭示，跨语言词汇适应显著提升了模型的推理速度。

跨标记化与跨语言词汇转移：低资源自然语言处理的语言适应

BriefGPT - AI 论文速递 ·

本文探讨了多语言预训练模型的效率，强调基于子词的模型在内存使用、推理速度和数据健壮性方面的优势。提出了一种无需词汇表的神经分词器，显著提升了多语言任务的性能。此外，研究介绍了通过张量列分解压缩模型嵌入层的方法，以及基于字节级文本的Transformer架构，展现出更高的稳健性和精度。

T-FREE: 基于稀疏表示的无分词生成型 LLMs 用于内存高效嵌入

BriefGPT - AI 论文速递 ·

本文综述了跨语言词向量模型的类型、数据需求和评估方法，探讨了影响句子对齐的因素，指出词序和形态复杂度是重要预测因素。提出了一种基于多语言预训练模型的词语对齐方法，结合了对齐和联合训练框架，显著提高了对齐质量和模型性能，尤其在低资源语言应用中表现突出。

跨语言对齐的理解 -- 综述

BriefGPT - AI 论文速递 ·

本研究旨在解决某些语言缺乏高质量标注数据集的问题，评估多语言预训练模型在斯洛伐克语上的效果，并与现有数据集进行比较。研究还展示了使用银标准数据集训练的优势，并公开了相关数据集和模型。

巴伐利亚方言数据中的命名实体识别

BriefGPT - AI 论文速递 ·

本文介绍了使用Conformer架构扩展自监督方法的多语言预训练模型，研究发现预训练的语音模型在编码语言的区分信息方面表现最佳。通过微调预训练的Conformer模型，可以实现类似于语言识别最先进系统的结果，模型参数比当前系统少了五倍，并通过NVIDIA NeMo工具包开源。

口语语言识别的生成语言表示

BriefGPT - AI 论文速递 ·

本文使用Conformer架构扩展了多语言预训练模型的自监督方法，发现预训练的语音模型在编码语言的区分信息方面表现最佳。嵌入对于分类未见过的语言和不同的声学环境具有鲁棒性，无需额外训练。微调预训练的Conformer模型后，实现了类似于语言识别最先进系统的结果。模型参数比当前系统少了五倍，并通过NVIDIA NeMo工具包开源了该模型。

健壮的开放式口语语种识别和 CU MultiLang 数据集

BriefGPT - AI 论文速递 ·