小红花·文摘

介绍IndQA

OpenAI ·

本研究评估了大型语言模型（LLMs）和谷歌翻译在印度语言翻译中的质量。结果表明，LLMs在翻译准确性上有所提升，但在情感和语义完整性方面仍面临挑战，尤其是在比喻和哲学内容的翻译中。GPT-4o和GPT-3.5在保留《博伽梵歌》翻译的情感方面优于谷歌翻译。

An Evaluation of LLMs and Google Translate Quality for Selected Indian Languages: Sentiment and Semantic Analysis

BriefGPT - AI 论文速递 ·

本研究推出IndicMMLU-Pro基准，评估大语言模型在印度语言上的表现，填补研究空白，强调设计原则，促进文化敏感的印度语言模型发展。

IndicMMLU-Pro: A Benchmark for Large Language Models in Indian Languages

BriefGPT - AI 论文速递 ·

释放大型语言模型的力量：提升印度语言理解

DEV Community ·

本研究评估了大语言模型在理解和生成印度语言的表现，分析了28种模型，发现不同语言间存在显著差异，印地语表现最佳，为未来改进提供了方向。

大语言模型中印度语言能力的分析

BriefGPT - AI 论文速递 ·

本研究提出一个综合平台，旨在解决印度地区语言在自然语言处理中的不足，提供文本匿名化、摘要和拼写检查等功能，支持英语、印地语和马拉地语，具有重要的实用价值。

An Investigation of Anonymization, Abstract Summarization, and Spell Checking in Hindi and Marathi

BriefGPT - AI 论文速递 ·

本文提出了一种基于并行语料库和合成数据增强的策略，旨在提升印度36种语言的机器翻译质量，促进多语种交流。

Bhasha Domain: The Translation Ecosystem of Languages in the Indian Subcontinent

BriefGPT - AI 论文速递 ·

本研究解决了多语言模型中分词效率不足的问题，特别是在印度语言应用中。SUTRA分词器在14种语言中表现优异，强调了开发针对性分词策略的重要性。

Evaluating Tokenizer Performance of Large Language Models in Official Indian Languages

BriefGPT - AI 论文速递 ·

本研究提出了BhasaAnuvaad数据集，涵盖14种印度官方语言，提供超过44,400小时的语音数据，旨在解决自动语音翻译（AST）数据集不足的问题，并评估现有AST系统的缺陷。

巴哈萨阿努瓦德：一个包含14种印度语言的语音翻译数据集

BriefGPT - AI 论文速递 ·

本研究评估了大型语言模型在真实多语言环境中用于健康聊天机器人的表现。分析了24个模型在印度患者数据上的应用，发现模型在印度语言查询中的表现差异显著，尤其在文化和语言混合的查询中面临挑战，指出了健康聊天机器人改进的潜力。

健康评估：在真实多语言环境中评估RAG模型用于健康聊天机器人

BriefGPT - AI 论文速递 ·

本研究探讨了多语言变换模型在印度语言中的编码能力，并提出了新基准数据集IndicSentEval。结果表明，专门模型更能捕捉语言特性，而通用模型在干扰下表现更鲁棒。这些发现有助于优化印度语言的自然语言处理任务。

IndicSentEval: A Study on the Effective Encoding of Linguistic Properties by Multilingual Transformer Models in Indic Languages

BriefGPT - AI 论文速递 ·

本文探讨了多语言自动语音识别（ASR）和文本转语音（TTS）系统在印度语言中的研究进展。研究表明，在低资源环境下，深度神经网络（DNN）技术和自我监督模型显著提高了语音识别的准确性。同时，介绍了多个新数据集的创建及其对模型性能的提升，强调了数据多样性和代表性的重要性。所有研究成果和数据将公开共享，以促进相关领域的发展。

IndicVoices-R：解锁一个巨大的多语言多说话人语音语料库，以扩展印度文本到语音技术

BriefGPT - AI 论文速递 ·

本文介绍了针对印度语言的大规模预训练数据集和工具的开发，涵盖22种语言，旨在推动自然语言处理（NLP）研究。通过构建开源流水线和生成非有毒响应，研究为资源匮乏语言的模型建设提供了蓝图。iNLTK库和IndicXNLI数据集的推出，展示了在文本分类和跨语言转移技术中的优越表现，促进了印度语言的NLP研究进展。

印度 LLM 的预训练数据和分词工具

BriefGPT - AI 论文速递 ·

本文介绍了针对印度语言的自然语言生成基准，如IndicNLG和IndicXTREME，评估了多种模型在不同任务上的表现。研究发现，GPT-4和PaLM2在资源稀缺语言上表现优异，并提出了针对Indic LLMs的资源套件，以推动相关研究和开发。此外，文章探讨了大型语言模型在法律领域和机器翻译中的能力，强调了多语言能力的重要性。

IndicGenBench：用于评估 LLMs 在印度语言上的生成能力的多语言基准测试

BriefGPT - AI 论文速递 ·

该研究提出了Mukhyansh数据集，包含超过339万个印度语言标题，解决了标注数据不足的问题。实证分析显示，模型在8种印度语言上的平均ROUGE-L得分为31.43。使用Kaggle平台的数据集，神经网络分类器的准确率达到0.8622，优于其他模型。研究还介绍了多种标题生成和分类方法，展示了不同模型的性能和应用。

TeClass：一个基于人工标注的基于相关性的头条分类和生成的泰卢固语数据集

BriefGPT - AI 论文速递 ·

本文探讨了语音识别和生成系统的研究进展，重点关注印度语言的ASR模型和视觉语音识别系统的表现。研究表明，离散单元在语音处理中的有效性，以及通过不同技术提高识别准确率的潜力。

Interspeech 2024 离散语音单元挑战中的语音处理技术报告

BriefGPT - AI 论文速递 ·

Gyan AI Paramanu 是一款针对印度语言的语言模型，支持10种语言和5种脚本，性能优于其他模型。研究提出了利用 Legal-BERT-HSLN 和 Legal-LUKE 模型分析法律文本的方法，显著提高了法律案件的处理效率，并探讨了多语言模型在法律领域的应用及优化，旨在提升法律专业人员的工作效率。

PARAMANU-AYN: 适用于印度法律案件文件的高效新型生成和指导语言模型

BriefGPT - AI 论文速递 ·

本文介绍了IndicXNLI数据集，分析了11种印度语言的跨语言转移技术，研究了预训练模型、语言和输入类型对模型表现的影响。同时，介绍了IndicIRSuite和Indic-ColBERT等资源，以提升印度语言的神经信息检索性能。通过机器翻译和多语言模型的研究，探讨了大型语言模型在印度语言翻译中的能力，推动了相关研究的发展。

IndicLLMSuite：针对印度语言创建预训练和微调数据集的蓝图

BriefGPT - AI 论文速递 ·

该论文介绍了为11种印度语言引入神经信息检索资源的工作，包括使用机器翻译创建的数据集和不同的神经信息检索模型集合。实验证明，这些资源在多种印度语言上的性能有显著改进。

Paramanu: 一系列新型高效的印度生成基础语言模型

BriefGPT - AI 论文速递 ·

本研究使用16,000个泰米尔语令牌增强了开源的LLaMA模型，解决了现有切尖模型中泰米尔语等语种的代表性不足导致的性能问题。通过LoRA方法高效训练模型，并引入了Alpaca和OpenOrca数据集。实验结果显示在泰米尔语文本生成方面有显著性能改进，对印度语言切尖模型的应用具有重要意义。通过公开模型、数据集和代码，促进语言建模领域的创新。

TeenyTinyLlama: 开源的巴西葡萄牙语小型语言模型训练

BriefGPT - AI 论文速递 ·