小红花·文摘

让技术变得更易获取

DEV Community ·

在Contra上被评选为2025年最佳印地语NestJS自由职业者之一

DEV Community ·

本研究提出了COMI-LINGUA，一个大型手动标注的数据集，旨在捕捉印地语与英语代码混合的语言细微差别。通过对100,970个实例的专家评估，揭示了现有多语言建模策略的局限性，并强调了改进代码混合文本处理能力的必要性。

COMI-LINGUA: Expert Annotated Large-Scale Dataset for Hindi-English Code-Mixing

BriefGPT - AI 论文速递 ·

有人能推荐最佳的印地语YouTuber，以学习使用Expo的React Native吗？

DEV Community ·

利用Twilio和Groq的LLaMA模型构建印地语AI职业咨询助手

DEV Community ·

本研究提出了一种多语言命名实体识别（NER）模型，专注于印地语、孟加拉语和马拉地语。经过训练和微调，该模型实现了92.11的F1分数，有效降低了三种语言之间的实体不一致性。

TriNER: A Series of Named Entity Recognition Models for Hindi, Bengali, and Marathi

BriefGPT - AI 论文速递 ·

本研究评估了大语言模型在理解和生成印度语言的表现，分析了28种模型，发现不同语言间存在显著差异，印地语表现最佳，为未来改进提供了方向。

大语言模型中印度语言能力的分析

BriefGPT - AI 论文速递 ·

本研究解决了印地语-英语混合对话中的情感识别问题，现有模型通常基于单语数据训练，未能有效处理混合数据。我们提出了一系列模型，考虑对话的前后文和顺序信息，并开发了Hinglish到英语的翻译管道以处理混合数据。最终模型在所有基线中表现领先，展现了该方法在情感识别任务中的有效性。

AIMA在SemEval-2024任务10中的应用：基于历史的情感识别于印地语-英语混合对话

BriefGPT - AI 论文速递 ·

本研究针对印地语和其他印度语言在大型语言模型（LLM）领域的不足进行探索。我们提出了一种新颖的两步预训练方法，首先创建高质量文本语料库进行无监督预训练，然后在不同任务上进行有监督微调，最终取得了在多项语言相关任务中的优越性能。该工作为印地语自然语言处理提供了重要的基准和工具，具有较大的应用潜力。

HindiLLM：用于印地语的大型语言模型

BriefGPT - AI 论文速递 ·

本研究针对开源大型语言模型在数学推理方面的不足，提出了课程学习和分解策略。实验结果显示，WizardMath 7B在英语数据集上超越Gemini，在印地语上表现相当，表明双语方法有效提升数学推理能力。

多语言数学推理：推动开源LLM在印地语和英语中的发展

BriefGPT - AI 论文速递 ·

本文探讨了在中等资源场景下，短语基础统计机器翻译（PBSMT）如何超越基于Transformer的神经机器翻译（NMT），尤其是对于结构相似的语言对，如波斯语和印地语。研究结果显示，PBSMT在同一数据集上的BLEU得分为66.32，显著高于NMT的53.7，强调了根据语言特征选择合适翻译架构的重要性，并支持在NMT主导的环境中PBSMT作为高效替代方案的有效性。

重新考虑对紧密相关语言进行统计机器翻译与神经机器翻译的研究：以波斯语-印地语对为例

BriefGPT - AI 论文速递 ·

本研究针对低资源印地语言的少样本学习能力面临的挑战，提出了一种新颖的示例选择方法PromptRefine，以改善在这些语言上的表现。该方法通过利用与高资源印地语言的辅助示例库，并采用多任务学习技术提高语言特定检索器的对齐能力，最终显著提升了多项文本生成任务的性能，减少了偏差并增强了模型的泛化能力。

PromptRefine：通过从相关示例库中选择示例来提升低资源印地语的少样本性能

BriefGPT - AI 论文速递 ·

本研究解决了印地语维基百科内容不完整的问题，尤其是在与英语维基百科的内容质量差距上。我们提出了一种轻量级框架，通过从外部资源提取信息并利用大语言模型的上下文学习能力，增强英语和印地语之间的知识公平性。实验表明，该框架能够显著提高印地语维基百科条目的内容质量，分别提升65%和62%。

有效地将知识从英语转移到印地语维基百科

BriefGPT - AI 论文速递 ·

印度医疗领袖引入NVIDIA NIM以支持印地语在大型语言模型应用中的使用

NVIDIA Blog ·

本研究提出了NLIP Lab的多语言翻译系统，通过预训练和对齐一致性目标，结合双语词典和高质量种子数据微调语言模型，提升了印地语翻译效果。评测显示该模型具有竞争力。

NLIP_Lab-IITH 多语言机器翻译系统用于 WAT24 机器翻译共享任务

BriefGPT - AI 论文速递 ·

用户在使用Flutter生成PDF时，遇到印地语/马拉地语字体“जिल्हा परिषद”输出不正确的问题。

您好，我遇到了一个问题：在PDF中使用印地语/马拉地语字体时，我的输入是'जिल्हा परिषद'，但在Flutter生成的PDF中输出却不同。

DEV Community ·

本文首次大规模研究梵语自动语音识别（ASR），发布了78小时的数据集，探讨声学和语言模型单元的影响。研究还涉及印度英语口音的ASR系统，创建了包含12种语言的Shrutilipi数据集，以提升模型准确性。此外，提出了Vistaar基准和Svarah测试数据集，评估印度口音的ASR表现，并发布了支持22种语言的INDICVOICES数据集。所有数据和工具将公开。

LAHAJA：评估印地语自动语音识别系统的多口音基准

BriefGPT - AI 论文速递 ·

本文概述了泰米尔语的形态和句法，强调其复杂性和丰富性，助力语言学分析和计算资源开发。同时，研究了机器翻译在多语言文本分析中的应用，显示其在情感和主题分析中的有效性，并探讨了深度学习在印地语文本分类中的应用，旨在推动印度语言模型的发展。

泰米尔语计算：现在和未来

BriefGPT - AI 论文速递 ·

本研究开发了一种适用于印度英语口音的语音识别系统，采用转移学习和数据增强技术，并与其他服务进行了比较。同时，探讨了梵语和孟加拉语的自动语音识别性能，分析了不同声学模型的影响，并提出了优化低资源语言识别的策略。

自动语音识别系统 —— 印地语

BriefGPT - AI 论文速递 ·

本研究提出了一种基于字符三元组 LSTM 和多项式朴素贝叶斯模型的集成模型，用于印地语-英语混合数据的情感分析。实验结果表明，该方法在真实用户数据上表现优异，显著提高了准确性和 F1 分数，推动了多语言情感分析的发展。

代码混合情感和仇恨言论预测

BriefGPT - AI 论文速递 ·