小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

WAXAL是一个开放的多语言语音数据集,涵盖24种非洲语言,专为自动语音识别(ASR)和文本转语音(TTS)设计。ASR部分通过图像提示自然采集语音,TTS部分在录音棚中高质量录制,确保语音一致性。

Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

实时互动网
实时互动网 · 2026-03-19T02:10:27Z
演讲:语言人工智能的生态与经济实践

Jade Abbott是Lelapa AI的CTO,专注于非洲语言AI。她指出非洲有2000多种语言,许多人不讲英语,并面临电力不足和数据中心匮乏的问题。她强调可持续性的重要性,呼吁开发小型高效模型,以满足当地需求,促进语言多样性和公平性。

演讲:语言人工智能的生态与经济实践

InfoQ
InfoQ · 2025-12-24T10:27:00Z

本研究提出了一种结合非洲语言数据与高质量英文文本的训练方法,显著提升了大型语言模型在低资源非洲语言上的表现,推动了相关研究的发展。

Lugha-Llama: Adapting Large Language Models for African Languages

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-09T00:00:00Z

本研究系统综述了2014至2024年间105项关于约鲁巴语自然语言处理的研究,指出数据标注短缺和模型可用性不足是主要障碍,为推动约鲁巴语及其他非洲语言的NLP发展提供了重要基础。

弥补约鲁巴语自然语言处理中的差距:十年进展与前景的系统综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

本研究探讨了传统级联语音翻译模型的局限性,并介绍了Google的Translatotron模型。该模型通过直接进行语音到语音的翻译,提高了翻译效率,减少了错误,尤其在弥合非洲语言与其他正式语言的障碍方面表现优异,具有重要的应用前景。

Speech to Speech Translation with Translatotron: A State of the Art Review

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-09T00:00:00Z

本研究介绍了AfriHuBERT模型,通过在6500小时语音数据上继续预训练,将支持的非洲语言从16种扩展到39种。结果显示,该模型在语言识别和自动语音识别任务中表现更佳,并指出现有评估基准对低资源非洲语言的数据质量需改进。

AfriHuBERT: A Self-Supervised Speech Representation Model for African Languages

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本文评估了大型语言模型(LLMs)在低资源语言(如辛哈拉语、孟加拉语和非洲语言)上的表现。研究发现,Claude 和 GPT-4 在辛哈拉语中表现良好,而Llama和Mistral则较差。孟加拉语的LLMs在生成任务中面临挑战,需开发更高效的模型。总体而言,LLMs在非洲语言上的表现普遍低于高资源语言,呼吁加强对这些语言的研究和支持。

大型语言模型是否在低资源环境中平等地掌握所有语言?一项比较性研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

TigerBot 系列大型语言模型在数据和训练算法方面取得显著进展,成为领先的开源模型。研究发布了首个双语基准数据集 StatBot.Swiss,评估 LLMs 在 Text-to-SQL 系统中的表现,发现其在生成 SQL 查询时泛化能力不足。此外,研究还探讨了 LLMs 在非洲语言上的应用,结果显示其性能普遍低于高资源语言,呼吁加强对非洲语言的代表性。

BOTS-LM: Setswana 大型语言模型的训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

近期研究显示,大型语言模型(LLM)在非洲语言上的表现普遍较差。我们评估了mT0、LLaMa 2和GPT-4在30种非洲语言上的五个任务,发现GPT-4在分类任务中表现较好,但在生成任务如机器翻译上效果不佳。mT0在跨语言问答中表现最佳,呼吁加强非洲语言在LLM中的代表性。

近期大型语言模型对低资源语言的表现

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-31T00:00:00Z
谷歌翻译将支持超过110种新语言

谷歌翻译宣布将新增110种语言支持,这是其历史上最大的一次扩展。新语言包括粤语和多种来自非洲的语言,许多新语言的使用者超过一百万。这次扩展得益于谷歌的PaLM 2 AI语言模型。

谷歌翻译将支持超过110种新语言

The Verge
The Verge · 2024-06-27T07:01:00Z

本研究聚焦于低资源非洲语言的语音合成,建立了数据集和TTS系统,发现仅需25分钟的录音即可生成可懂的语音。研究还探讨了种族表示的挑战,并发布了AfriSpeech数据集,以支持非洲语言的语音识别。通过多语言模型和自监督学习,构建了一个能够生成7000种语言语音的TTS系统,旨在帮助语言资源有限的社区。

1000 名非洲人的声音:推进包容性多说话者多口音语音合成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

本文介绍了非洲语言机器翻译的研究进展,提出了AfroMT基准和分析工具,探讨了低资源预训练的可能性。研究表明,大型语言模型在非洲语言上的表现普遍较差,呼吁加强对非洲语言的代表性。通过数据增强和多语言学习,提升了翻译效果,推动了南非及其他非洲语言的自然语言处理技术发展。

IrokoBench:大型语言模型时代的非洲语言新基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-05T00:00:00Z

本研究聚焦于低资源非洲语言的语音合成,开发了支持12种非洲语言的语音数据集和TTS系统。通过迁移学习和数据增强,展示了在低资源环境下构建高质量语音合成系统的可行性,并开源相关模型和代码。

利用众包数据构建一种卢干达语文字转语音模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-16T00:00:00Z

研究表明,大型语言模型在非洲语言的跨语言信息检索中表现出色,尤其在英语中效果最佳。为提升低资源语言的表现,提出了扩展词汇、双语预训练和高质量指令数据集等策略。分析显示,现有模型在多语言能力上超出预期,但需解决语言不平衡和偏见问题。

大型语言模型在多种语言上的多语言性能量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-17T00:00:00Z

本文探讨了多种情感分析方法在低资源语言中的应用,特别是非洲语言。研究利用预训练语言模型和迁移学习技术,在情感分类任务中取得了显著成果,尤其在多语言和零样本分类方面表现突出。这为政治文本的情感分析提供了可靠的方法,并推动了低资源语言的情感分析发展。

通过数据增强提升拉丁语极性检测的 Nostra Domina 方法在 EvaLatin 2024 的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-11T00:00:00Z

本文介绍了对多种非洲语言的研究进展,重点关注Tamasheq语言的数据集、机器翻译模型、语音合成和自动语音识别系统的开发,特别是针对低资源语言的应用,提供了高质量的对话和语音数据,推动了自然语言处理和机器学习的发展。

Kallaama:塞内加尔三种最广泛使用的语言中关于农业的转录语音数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-02T00:00:00Z

最新研究发现,大型语言模型在非洲语言上的性能较差,与英语等高资源语言相比存在较大差距。GPT-4在分类任务上表现良好,但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表。

拯救英雄伊巴什的遗产:评估四个语言模型对氨基酸的作用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-28T00:00:00Z

最新研究发现,大型语言模型在非洲语言上表现较差,特别是在机器翻译任务上。然而,mT0在非洲语言上的跨语言问答表现最佳,超过了有监督模型和GPT-4。研究呼吁确保非洲语言在大型语言模型中得到很好的代表。

猎豹: 517 种非洲语言的自然语言生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-02T00:00:00Z

最新研究发现,大型语言模型在非洲语言上表现较差,与英语等高资源语言相比存在较大差距。GPT-4在分类任务上表现平均,但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究呼吁确保非洲语言在大型语言模型中得到很好的代表。

LLaMA 跨越英语:语言能力转移的实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-02T00:00:00Z

最新研究发现,大型语言模型在非洲语言上的性能较差,与英语等高资源语言相比存在较大差距。GPT-4在分类任务上表现平均,但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究呼吁确保非洲语言在大型语言模型中得到很好的代表。

大规模语言模型的零射击跨语言再排序用于低资源语言

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-26T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码