小红花·文摘

Google AI 发布 WAXAL：用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

实时互动网 ·

演讲：语言人工智能的生态与经济实践

InfoQ ·

本研究提出了一种结合非洲语言数据与高质量英文文本的训练方法，显著提升了大型语言模型在低资源非洲语言上的表现，推动了相关研究的发展。

Lugha-Llama: Adapting Large Language Models for African Languages

BriefGPT - AI 论文速递 ·

本研究系统综述了2014至2024年间105项关于约鲁巴语自然语言处理的研究，指出数据标注短缺和模型可用性不足是主要障碍，为推动约鲁巴语及其他非洲语言的NLP发展提供了重要基础。

弥补约鲁巴语自然语言处理中的差距：十年进展与前景的系统综述

BriefGPT - AI 论文速递 ·

本研究探讨了传统级联语音翻译模型的局限性，并介绍了Google的Translatotron模型。该模型通过直接进行语音到语音的翻译，提高了翻译效率，减少了错误，尤其在弥合非洲语言与其他正式语言的障碍方面表现优异，具有重要的应用前景。

Speech to Speech Translation with Translatotron: A State of the Art Review

BriefGPT - AI 论文速递 ·

本研究介绍了AfriHuBERT模型，通过在6500小时语音数据上继续预训练，将支持的非洲语言从16种扩展到39种。结果显示，该模型在语言识别和自动语音识别任务中表现更佳，并指出现有评估基准对低资源非洲语言的数据质量需改进。

AfriHuBERT: A Self-Supervised Speech Representation Model for African Languages

BriefGPT - AI 论文速递 ·

本文评估了大型语言模型（LLMs）在低资源语言（如辛哈拉语、孟加拉语和非洲语言）上的表现。研究发现，Claude 和 GPT-4 在辛哈拉语中表现良好，而Llama和Mistral则较差。孟加拉语的LLMs在生成任务中面临挑战，需开发更高效的模型。总体而言，LLMs在非洲语言上的表现普遍低于高资源语言，呼吁加强对这些语言的研究和支持。

大型语言模型是否在低资源环境中平等地掌握所有语言？一项比较性研究

BriefGPT - AI 论文速递 ·

TigerBot 系列大型语言模型在数据和训练算法方面取得显著进展，成为领先的开源模型。研究发布了首个双语基准数据集 StatBot.Swiss，评估 LLMs 在 Text-to-SQL 系统中的表现，发现其在生成 SQL 查询时泛化能力不足。此外，研究还探讨了 LLMs 在非洲语言上的应用，结果显示其性能普遍低于高资源语言，呼吁加强对非洲语言的代表性。

BOTS-LM: Setswana 大型语言模型的训练

BriefGPT - AI 论文速递 ·

近期研究显示，大型语言模型（LLM）在非洲语言上的表现普遍较差。我们评估了mT0、LLaMa 2和GPT-4在30种非洲语言上的五个任务，发现GPT-4在分类任务中表现较好，但在生成任务如机器翻译上效果不佳。mT0在跨语言问答中表现最佳，呼吁加强非洲语言在LLM中的代表性。

近期大型语言模型对低资源语言的表现

BriefGPT - AI 论文速递 ·

谷歌翻译将支持超过110种新语言

The Verge ·

本研究聚焦于低资源非洲语言的语音合成，建立了数据集和TTS系统，发现仅需25分钟的录音即可生成可懂的语音。研究还探讨了种族表示的挑战，并发布了AfriSpeech数据集，以支持非洲语言的语音识别。通过多语言模型和自监督学习，构建了一个能够生成7000种语言语音的TTS系统，旨在帮助语言资源有限的社区。

1000 名非洲人的声音：推进包容性多说话者多口音语音合成

BriefGPT - AI 论文速递 ·

本文介绍了非洲语言机器翻译的研究进展，提出了AfroMT基准和分析工具，探讨了低资源预训练的可能性。研究表明，大型语言模型在非洲语言上的表现普遍较差，呼吁加强对非洲语言的代表性。通过数据增强和多语言学习，提升了翻译效果，推动了南非及其他非洲语言的自然语言处理技术发展。

IrokoBench：大型语言模型时代的非洲语言新基准

BriefGPT - AI 论文速递 ·

本研究聚焦于低资源非洲语言的语音合成，开发了支持12种非洲语言的语音数据集和TTS系统。通过迁移学习和数据增强，展示了在低资源环境下构建高质量语音合成系统的可行性，并开源相关模型和代码。

利用众包数据构建一种卢干达语文字转语音模型

BriefGPT - AI 论文速递 ·

研究表明，大型语言模型在非洲语言的跨语言信息检索中表现出色，尤其在英语中效果最佳。为提升低资源语言的表现，提出了扩展词汇、双语预训练和高质量指令数据集等策略。分析显示，现有模型在多语言能力上超出预期，但需解决语言不平衡和偏见问题。

大型语言模型在多种语言上的多语言性能量化

BriefGPT - AI 论文速递 ·

本文探讨了多种情感分析方法在低资源语言中的应用，特别是非洲语言。研究利用预训练语言模型和迁移学习技术，在情感分类任务中取得了显著成果，尤其在多语言和零样本分类方面表现突出。这为政治文本的情感分析提供了可靠的方法，并推动了低资源语言的情感分析发展。

通过数据增强提升拉丁语极性检测的 Nostra Domina 方法在 EvaLatin 2024 的应用

BriefGPT - AI 论文速递 ·

本文介绍了对多种非洲语言的研究进展，重点关注Tamasheq语言的数据集、机器翻译模型、语音合成和自动语音识别系统的开发，特别是针对低资源语言的应用，提供了高质量的对话和语音数据，推动了自然语言处理和机器学习的发展。

Kallaama：塞内加尔三种最广泛使用的语言中关于农业的转录语音数据集

BriefGPT - AI 论文速递 ·

最新研究发现，大型语言模型在非洲语言上的性能较差，与英语等高资源语言相比存在较大差距。GPT-4在分类任务上表现良好，但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表。

拯救英雄伊巴什的遗产：评估四个语言模型对氨基酸的作用

BriefGPT - AI 论文速递 ·

最新研究发现，大型语言模型在非洲语言上表现较差，特别是在机器翻译任务上。然而，mT0在非洲语言上的跨语言问答表现最佳，超过了有监督模型和GPT-4。研究呼吁确保非洲语言在大型语言模型中得到很好的代表。

猎豹: 517 种非洲语言的自然语言生成

BriefGPT - AI 论文速递 ·

最新研究发现，大型语言模型在非洲语言上表现较差，与英语等高资源语言相比存在较大差距。GPT-4在分类任务上表现平均，但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究呼吁确保非洲语言在大型语言模型中得到很好的代表。

LLaMA 跨越英语：语言能力转移的实证研究

BriefGPT - AI 论文速递 ·

最新研究发现，大型语言模型在非洲语言上的性能较差，与英语等高资源语言相比存在较大差距。GPT-4在分类任务上表现平均，但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究呼吁确保非洲语言在大型语言模型中得到很好的代表。

大规模语言模型的零射击跨语言再排序用于低资源语言

BriefGPT - AI 论文速递 ·