我们致力于让AGI惠及全人类,特别是非英语国家。为此,我们创建了IndQA,这是一个评估印度语言和文化理解的新基准,涵盖2278个问题,涉及12种语言和10个文化领域,旨在评估AI的理解和推理能力,促进技术在印度的可及性和应用。
本研究评估了大型语言模型(LLMs)和谷歌翻译在印度语言翻译中的质量。结果表明,LLMs在翻译准确性上有所提升,但在情感和语义完整性方面仍面临挑战,尤其是在比喻和哲学内容的翻译中。GPT-4o和GPT-3.5在保留《博伽梵歌》翻译的情感方面优于谷歌翻译。
本研究推出IndicMMLU-Pro基准,评估大语言模型在印度语言上的表现,填补研究空白,强调设计原则,促进文化敏感的印度语言模型发展。
大型语言模型(LLMs)为印度语言的理解和交流带来了新机遇。尽管面临数据稀缺等挑战,LLMs在提升语言能力和文化理解方面展现出巨大潜力。通过透明的数据共享和多样化的数据集,未来有望实现更好的语言处理效果。
本研究评估了大语言模型在理解和生成印度语言的表现,分析了28种模型,发现不同语言间存在显著差异,印地语表现最佳,为未来改进提供了方向。
本研究提出一个综合平台,旨在解决印度地区语言在自然语言处理中的不足,提供文本匿名化、摘要和拼写检查等功能,支持英语、印地语和马拉地语,具有重要的实用价值。
本文提出了一种基于并行语料库和合成数据增强的策略,旨在提升印度36种语言的机器翻译质量,促进多语种交流。
本研究解决了多语言模型中分词效率不足的问题,特别是在印度语言应用中。SUTRA分词器在14种语言中表现优异,强调了开发针对性分词策略的重要性。
本研究提出了BhasaAnuvaad数据集,涵盖14种印度官方语言,提供超过44,400小时的语音数据,旨在解决自动语音翻译(AST)数据集不足的问题,并评估现有AST系统的缺陷。
本研究评估了大型语言模型在真实多语言环境中用于健康聊天机器人的表现。分析了24个模型在印度患者数据上的应用,发现模型在印度语言查询中的表现差异显著,尤其在文化和语言混合的查询中面临挑战,指出了健康聊天机器人改进的潜力。
本研究探讨了多语言变换模型在印度语言中的编码能力,并提出了新基准数据集IndicSentEval。结果表明,专门模型更能捕捉语言特性,而通用模型在干扰下表现更鲁棒。这些发现有助于优化印度语言的自然语言处理任务。
本文探讨了多语言自动语音识别(ASR)和文本转语音(TTS)系统在印度语言中的研究进展。研究表明,在低资源环境下,深度神经网络(DNN)技术和自我监督模型显著提高了语音识别的准确性。同时,介绍了多个新数据集的创建及其对模型性能的提升,强调了数据多样性和代表性的重要性。所有研究成果和数据将公开共享,以促进相关领域的发展。
本文介绍了针对印度语言的大规模预训练数据集和工具的开发,涵盖22种语言,旨在推动自然语言处理(NLP)研究。通过构建开源流水线和生成非有毒响应,研究为资源匮乏语言的模型建设提供了蓝图。iNLTK库和IndicXNLI数据集的推出,展示了在文本分类和跨语言转移技术中的优越表现,促进了印度语言的NLP研究进展。
本文介绍了针对印度语言的自然语言生成基准,如IndicNLG和IndicXTREME,评估了多种模型在不同任务上的表现。研究发现,GPT-4和PaLM2在资源稀缺语言上表现优异,并提出了针对Indic LLMs的资源套件,以推动相关研究和开发。此外,文章探讨了大型语言模型在法律领域和机器翻译中的能力,强调了多语言能力的重要性。
该研究提出了Mukhyansh数据集,包含超过339万个印度语言标题,解决了标注数据不足的问题。实证分析显示,模型在8种印度语言上的平均ROUGE-L得分为31.43。使用Kaggle平台的数据集,神经网络分类器的准确率达到0.8622,优于其他模型。研究还介绍了多种标题生成和分类方法,展示了不同模型的性能和应用。
本文探讨了语音识别和生成系统的研究进展,重点关注印度语言的ASR模型和视觉语音识别系统的表现。研究表明,离散单元在语音处理中的有效性,以及通过不同技术提高识别准确率的潜力。
Gyan AI Paramanu 是一款针对印度语言的语言模型,支持10种语言和5种脚本,性能优于其他模型。研究提出了利用 Legal-BERT-HSLN 和 Legal-LUKE 模型分析法律文本的方法,显著提高了法律案件的处理效率,并探讨了多语言模型在法律领域的应用及优化,旨在提升法律专业人员的工作效率。
本文介绍了IndicXNLI数据集,分析了11种印度语言的跨语言转移技术,研究了预训练模型、语言和输入类型对模型表现的影响。同时,介绍了IndicIRSuite和Indic-ColBERT等资源,以提升印度语言的神经信息检索性能。通过机器翻译和多语言模型的研究,探讨了大型语言模型在印度语言翻译中的能力,推动了相关研究的发展。
该论文介绍了为11种印度语言引入神经信息检索资源的工作,包括使用机器翻译创建的数据集和不同的神经信息检索模型集合。实验证明,这些资源在多种印度语言上的性能有显著改进。
本研究使用16,000个泰米尔语令牌增强了开源的LLaMA模型,解决了现有切尖模型中泰米尔语等语种的代表性不足导致的性能问题。通过LoRA方法高效训练模型,并引入了Alpaca和OpenOrca数据集。实验结果显示在泰米尔语文本生成方面有显著性能改进,对印度语言切尖模型的应用具有重要意义。通过公开模型、数据集和代码,促进语言建模领域的创新。
完成下面两步后,将自动完成登录并继续当前操作。