本研究针对低资源语言孟加拉语在深伪音频检测中面临的数据集有限和声学特征微妙等问题,提出了BanglaFake数据集,包含12,260个真实和13,260个深伪语句。通过最新的文本转语音模型生成合成语音,并利用初步评估结果表明该数据集在推进孟加拉语深伪检测方面具有重要价值。
本文介绍了JavaScript中的多种循环类型,包括for、while、do-while、for-in、for-of和forEach,以及它们的使用场景。掌握这些循环可以使JavaScript编程更加简单和有趣。
本研究解决了孟加拉手语文本翻译问题,创新性地结合德美手语语法与大型语言模型生成合成数据。结果显示,基于mBART-50的模型在PHOENIX-14T测试中表现优异,提出了新的翻译范式,证明合成数据对BdSL翻译的促进作用。
本研究针对印度多样文化和语言背景的命名实体识别(NER)挑战,提出了一种多语言NER模型,专注于印地语、孟加拉语和马拉地语,F1分数达到92.11。
本研究旨在解决孟加拉语社区中假新闻传播问题,提出了一种利用门控循环单元(GRU)识别假新闻的新方法。研究成果显示,该方法在经过全面数据预处理后,达到了94%的高准确率,显著优于其他孟加拉语假新闻检测模型,为相关领域提供了重要的参考数据和方法。
本研究针对孟加拉语人工智能数学挑战提出了一种系统的方法,填补了大型语言模型(LLMs)在此领域的研究空白。通过评估不同LLM配置、使用特定数据集进行微调以及实施检索增强生成(RAG),我们发现在多语言环境中定制提示、数据集增强和迭代推理能够显著提高模型对于奥林匹克级数学问题的解决效率。
本文介绍了BanglishRev数据集,包含174万条孟加拉语与英语混合的电商评论。BanglishBERT模型在二元情感分析中取得94%的准确率和F1分数,验证了数据集的有效性和研究潜力。
本研究回顾了孟加拉语问答系统的发展,分析了数据注释不足和阅读理解数据集缺失等挑战。评估七项研究后,指出LSTM模型和注意力机制等创新方法提升了系统性能,并强调克服这些障碍以增强实际应用能力的必要性。
本研究推出了BanStereoSet数据集,用于评估多语言大语言模型中孟加拉语刻板社会偏见。通过本地化现有的数据集,填补了孟加拉语资源的空白,发现了不同社会类别中的显著偏见,推动了更公平语言技术的开发。
IndiBias是一个包含800个句子和偏见测量元组的数据集,用于评估印度社会偏见。研究发现,通过使用IndiBias,语言模型在多个偏见测量指标上表现出更多偏见。
这篇文章介绍了一种生成孟加拉语语法错误句子的方法,通过分类不同错误类型并从正确句子中生成错误句子。作者通过收集孟加拉语母语者撰写的文章中的句子,构建了一个包含语法错误句子和正确句子的数据集。结果表明,母语为孟加拉语的人类评估者比神经模型更准确地检测句子的语法正确性。这种方法也可以应用于其他印度语言。
该研究使用GPT 3.5、GPT 4和DepGPT等模型,对Reddit和X数据集进行分类,创建了孟加拉社交媒体抑郁数据集(BSMDD)。DepGPT模型在零样本学习和少样本学习场景中表现优异,准确度和F1分数接近完美。该研究强调了LLM在各种语言环境中的有效性和灵活性,为抑郁症检测模型提供了深入信息。
本研究论文介绍了一种有效处理孟加拉语下一个词预测和孟加拉语句子生成的双向长短期记忆网络模型,扩展了孟加拉语处理的范围,具有多样性和潜在影响力,在各种新闻门户网站上构建了语料库数据集,并在单词预测方面取得了卓越结果,uni-gram、bi-gram 和 tri-gram 的单词预测准确率分别达到 35%、75% 和 95%。
该研究提出了一种孟加拉语OCR系统,能够准确提取文本并重建文档布局。该系统适应多种文档类型,包括计算机排版、凸版印刷、打字机和手写文档,并能处理静态和动态手写输入。该系统还能识别孟加拉语中的复合字符,并具有图像、标志、签名和表格识别等额外功能。
该论文介绍了DeepHateExplainer方法,用于从孟加拉语中分类政治、个人、地缘政治和宗教仇恨。该方法通过敏感度分析和层内关联传播技术鉴别出重要的术语,并在机器学习和神经网络模型上表现良好。
本研究设计了一个用于孟加拉语的词形还原器,通过对大规模孟加拉语文本的分析,实现了基于单词词性分类的词形还原。词形还原器在测试数据集上取得了96.36%的准确性,并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。该研究公开提供代码和数据集,以促进孟加拉语自然语言处理的进一步发展。
该文介绍了任务视觉问题生成(VQG),旨在在展示图片后提出自然而引人入胜的问题。提供了三个数据集,涵盖了各种图像。评估结果表明,模型为各种图像提出了合理的问题,但与人类性能的差距很大。作者希望进一步探索将图像与常识和语用知识联系起来的相关研究。
该论文介绍了 Tri-Distil-BERT 和 Mixed-Distil-BERT 两个多语言模型,能够在多个 NLP 任务上与更大的模型相竞争。这两个模型的两层预训练方法为多语言和混合代码语言理解提供了高效的选择。
该论文介绍了DeepHateExplainer,一种用于分类孟加拉语中的政治、个人、地缘政治和宗教仇恨的方法。通过敏感度分析和层内关联传播技术,识别出重要和不重要的术语。评估结果显示该方法在机器学习和神经网络模型上表现良好。
完成下面两步后,将自动完成登录并继续当前操作。