小红花·文摘

ICASSP 2026｜迈向构建低资源语种的多任务语音理解模型

实时互动网 ·

谷歌推出TranslateGemma开源模型，实现多语言翻译

InfoQ ·

Hugging Face发布FineTranslations，一个万亿标记的多语言平行文本数据集

InfoQ ·

信息检索的进展：近期研究的全面分析

DEV Community ·

本研究提出了一种新方法DeFT-X，旨在解决高资源语言模型在低资源语言迁移中的挑战。通过去噪处理改进稀疏微调策略，提升了情感分类和自然语言推理任务的效果。

DeFT-X: Denoised Sparse Fine-Tuning for Zero-Shot Cross-Language Transfer

BriefGPT - AI 论文速递 ·

本研究提出了一种新的奖励建模方法，旨在解决深度推理模型在低资源语言翻译中的不足。与大型推理模型相比，该方法在文学翻译中表现出色，并成功扩展至11种语言，实现了90个翻译方向的优异性能。

ExTrans: Multilingual Deep Reasoning Translation via Exemplar-Enhanced Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究分析了大语言模型在多语言推理中的表现，发现英语推理模型在高资源语言中能有效提升跨语言数学推理能力，但低资源语言存在局限性。

Cross-Language Reasoning through Extended Testing

BriefGPT - AI 论文速递 ·

本研究系统性回顾了生成语言建模中低资源语言的数据稀缺问题，评估了54项研究提出的技术策略，如单语数据增强和多语言训练。发现现有方法主要集中于少数低资源语言，评估方法不一致，并提出了扩展建议以支持更多低资源语言的生成模型构建。

Overcoming Data Scarcity in Generative Language Modeling for Low-Resource Languages: A Systematic Review

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）在非英语教育环境中的表现偏差，发现其在低资源语言上的效果较差，且与训练数据量相关。因此，在实际应用前需验证模型在目标语言的表现，以为教育领域的多语言应用提供实证依据和建议。

Multilingual Performance Biases of Large Language Models in Education

BriefGPT - AI 论文速递 ·

本研究提出了Compass-v2，一种轻量级混合专家模型，旨在提升东南亚低资源语言和电子商务领域的模型性能。通过构建高质量数据集，该模型在多语言和电子商务应用中表现优异，并降低了推理成本。

Compass-V2 Technical Report

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，解决低资源语言在语音合成中的数据不足和复杂性问题。该方法结合数据优化框架和先进声学模型，支持零样本语音克隆，提升了在金融、医疗等领域的应用表现。

Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis

BriefGPT - AI 论文速递 ·

本研究探讨如何利用大型语言模型提升低资源语言的机器翻译，分析了示例提示、跨语言迁移和微调等技术，并比较了大型语言模型与传统模型的优缺点。

弥合语言鸿沟：利用大型语言模型进行机器翻译的调查

BriefGPT - AI 论文速递 ·

本研究提出了一种名为RoSPrompt的方法，旨在提升小型多语言预训练模型在低资源语言中的零样本分类性能。该方法有效解决了数据依赖性问题，增强了模型在数据分布变化时的泛化能力。实验结果表明，该方法在106种语言的数据集中表现优异。

通过软提示调整增强小型语言模型的跨语言广义零样本分类

BriefGPT - AI 论文速递 ·

本研究提出了一种框架，用于自动评估大型语言模型在低资源语言中的脆弱性。研究发现，尽管模型表现不佳，但风险较小，主要源于模型的无效反应。

A Framework for Evaluating the Multilingual Vulnerabilities of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出LLM-C3MOD系统，旨在改善低资源语言中仇恨言论管理的文化理解不足问题。通过增强文化背景注释和人工管理，该系统提高了分析准确性，减轻了人类调节者的工作量。研究表明，适当支持的非母语调节者能够有效参与跨文化仇恨言论管理。

LLM-C3MOD: A Human-LLM Collaborative System for Cross-Cultural Hate Speech Moderation

BriefGPT - AI 论文速递 ·

本研究探讨了跨语言IPA对比学习在低资源语言零样本命名实体识别中的应用。通过减少相似语音特征语言间的IPA差距，提出的CONLIPA数据集和IPAC方法显著提升了识别性能，展示了其应用潜力。

Application of Cross-Lingual IPA Contrastive Learning in Zero-Shot Named Entity Recognition

BriefGPT - AI 论文速递 ·

本研究针对30多种低资源语言的情感检测，填补了该领域的空白。通过多条赛道的情感标签预测，提供基线结果和最佳系统表现，为多语言情感分析提供重要参考，推动跨语言情感检测的发展。

SemEval-2025 Task 11: Bridging the Gap in Text-Based Sentiment Detection

BriefGPT - AI 论文速递 ·

阿里发布 Babel：开放多语言大型语言模型 LLM 服务全球 90% 以上使用者

实时互动网 ·

本研究针对低资源语言在词义消歧义（WSD）和词义引导（WSI）任务中缺乏大型数据集的问题，提出利用生成的句子对和字典示例来有效区分词义。结果显示，该方法在WSD和WSI任务上优于现有模型，显著提升了低资源语言的处理能力。

Solving Word-Sense Disambiguation and Word-Sense Induction with Dictionary Examples

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型在不同语言中学习新知识的不平等现象，发现低资源语言在有效性、可迁移性、优先级和鲁棒性等方面普遍处于劣势，旨在提高对语言不平等的认识，推动更公平的LLMs发展。

Uncovering Inequalities in New Knowledge Learning by Large Language Models Across Different Languages

BriefGPT - AI 论文速递 ·