我们致力于让AGI惠及全人类,特别是非英语国家。为此,我们创建了IndQA,这是一个评估印度语言和文化理解的新基准,涵盖2278个问题,涉及12种语言和10个文化领域,旨在评估AI的理解和推理能力,促进技术在印度的可及性和应用。
本研究评估了大型语言模型(LLMs)和谷歌翻译在印度语言翻译中的质量。结果表明,LLMs在翻译准确性上有所提升,但在情感和语义完整性方面仍面临挑战,尤其是在比喻和哲学内容的翻译中。GPT-4o和GPT-3.5在保留《博伽梵歌》翻译的情感方面优于谷歌翻译。
本研究推出IndicMMLU-Pro基准,评估大语言模型在印度语言上的表现,填补研究空白,强调设计原则,促进文化敏感的印度语言模型发展。
大型语言模型(LLMs)为印度语言的理解和交流带来了新机遇。尽管面临数据稀缺等挑战,LLMs在提升语言能力和文化理解方面展现出巨大潜力。通过透明的数据共享和多样化的数据集,未来有望实现更好的语言处理效果。
本研究评估了大语言模型在理解和生成印度语言的表现,分析了28种模型,发现不同语言间存在显著差异,印地语表现最佳,为未来改进提供了方向。
本研究提出一个综合平台,旨在解决印度地区语言在自然语言处理中的不足,提供文本匿名化、摘要和拼写检查等功能,支持英语、印地语和马拉地语,具有重要的实用价值。
本文提出了一种基于并行语料库和合成数据增强的策略,旨在提升印度36种语言的机器翻译质量,促进多语种交流。
本研究解决了多语言模型中分词效率不足的问题,特别是在印度语言应用中。SUTRA分词器在14种语言中表现优异,强调了开发针对性分词策略的重要性。
本研究提出了BhasaAnuvaad数据集,涵盖14种印度官方语言,提供超过44,400小时的语音数据,旨在解决自动语音翻译(AST)数据集不足的问题,并评估现有AST系统的缺陷。
研究分析大型语言模型在多语言环境中的评估不足,特别是在印度患者使用医疗聊天机器人的情况下。评估24个模型后,提出了统一的检索增强生成框架。结果显示,模型在印度语言查询中表现差异大,并在文化和语言混合查询上遇到挑战,指出了改进健康聊天机器人的潜力。
本研究提出IndicSentEval基准数据集,分析了9个模型在6种印度语言中的编码能力和鲁棒性。结果显示,专为印度语言设计的模型更能捕捉语言特性,但通用模型在某些情况下表现更好。这些发现有助于优化印度语言的自然语言处理任务。
该论文介绍了为11种印度语言引入神经信息检索资源的工作,包括使用机器翻译创建的数据集和神经信息检索模型集合。实验证明,该资源在多种印度语言上取得了显著改进。
OntoSenseNet是一个为印度语言量身定制的动词中心词汇资源,通过计算版本保留了Telugu词典的原汁原味,并由本地语言人士进行注释。验证结果表明该资源有效。
本研究评估大型语言模型对自动无参考翻译评估的有效性,并通过模拟人类直接评估的实验来评估英语和印度语言译文的质量。发现基于大型语言模型的评估器在考虑的印度语言对上实现了相当或更高的整体相关性与人类判断。
该论文介绍了为11种印度语言引入神经信息检索资源的工作,包括使用机器翻译创建的数据集和不同的神经信息检索模型集合。实验证明,这些资源在多种印度语言上的性能有显著改进。
本研究使用16,000个泰米尔语令牌增强了开源的LLaMA模型,解决了现有切尖模型中泰米尔语等语种的代表性不足导致的性能问题。通过LoRA方法高效训练模型,并引入了Alpaca和OpenOrca数据集。实验结果显示在泰米尔语文本生成方面有显著性能改进,对印度语言切尖模型的应用具有重要意义。通过公开模型、数据集和代码,促进语言建模领域的创新。
本文介绍了使用泰米尔语令牌增强开源的LLaMA模型来解决现有切尖模型中泰米尔语等语种的代表性不足所导致的性能不佳问题。通过LoRA方法进行高效的模型训练,并引入了Alpaca和OpenOrca数据集进行实验。结果显示在泰米尔语文本生成方面有显著的性能改进,对印度语言切尖模型的应用具有重要意义。通过公开模型、数据集和代码,促进语言建模领域的创新。
Indus OS是专为印度智能手机设计的操作系统,支持印度语言和本地功能。它提供了印度市场设计的界面和应用程序,包括文本转语音和Indus键盘。Indus OS的目标是提高印度智能手机用户的生产力和可扩展性。然而,Indus OS的市场供应有限,兼容性和应用程序支持可能存在问题。
本文介绍了使用泰米尔语令牌增强开源的LLaMA模型来解决现有切尖模型中泰米尔语等语种的代表性不足所导致的性能不佳问题。通过LoRA方法进行高效的模型训练,并引入了Alpaca数据集和OpenOrca数据集的子集进行微调。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对印度语言切尖模型的应用具有重要意义。通过公开模型、数据集和代码,促进语言建模领域的创新。
本文介绍了使用泰米尔语令牌增强开源的LLaMA模型来解决现有切尖模型中泰米尔语等语种的代表性不足所导致的性能不佳问题。通过LoRA方法进行高效的模型训练,并引入了Alpaca数据集和OpenOrca数据集的子集进行实验。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对印度语言切尖模型的应用具有重要意义。通过公开模型、数据集和代码,促进语言建模领域的创新。
完成下面两步后,将自动完成登录并继续当前操作。