本研究针对低资源语言孟加拉语在深伪音频检测中面临的数据集有限和声学特征微妙等问题,提出了BanglaFake数据集,包含12,260个真实和13,260个深伪语句。通过最新的文本转语音模型生成合成语音,并利用初步评估结果表明该数据集在推进孟加拉语深伪检测方面具有重要价值。
本研究评估了九种大型语言模型在孟加拉语消费者健康查询摘要中的表现。结果显示,Mixtral-8x22b-Instruct模型在ROUGE指标上表现最佳,证明了这些模型在低资源语言医疗查询摘要中的潜力。
本文介绍了JavaScript中的多种循环类型,包括for、while、do-while、for-in、for-of和forEach,以及它们的使用场景。掌握这些循环可以使JavaScript编程更加简单和有趣。
本研究解决了孟加拉手语文本翻译问题,创新性地结合德美手语语法与大型语言模型生成合成数据。结果显示,基于mBART-50的模型在PHOENIX-14T测试中表现优异,提出了新的翻译范式,证明合成数据对BdSL翻译的促进作用。
Avro Keyboard是一款开源的孟加拉语输入法软件,因其对孟加拉数字化的贡献获得国家最高民间奖项。创始人Mehdi Hasan Khan强调团队合作的重要性。尽管面临法律挑战,该软件仍广受欢迎,象征着对开源创新的认可,激励未来开发者。
本研究提出了一种多语言命名实体识别(NER)模型,专注于印地语、孟加拉语和马拉地语。经过训练和微调,该模型实现了92.11的F1分数,有效降低了三种语言之间的实体不一致性。
本研究旨在解决孟加拉语社区中假新闻传播问题,提出了一种利用门控循环单元(GRU)识别假新闻的新方法。研究成果显示,该方法在经过全面数据预处理后,达到了94%的高准确率,显著优于其他孟加拉语假新闻检测模型,为相关领域提供了重要的参考数据和方法。
本研究针对低资源语言(如孟加拉语)假新闻检测中的数据和工具不足,提出了BanFakeNews-2.0数据集,包含47,000条真实新闻和13,000条假新闻。通过先进的深度学习模型,检测精度显著提高,推动相关研究和应用的发展。
本研究针对孟加拉语人工智能数学挑战提出了一种系统的方法,填补了大型语言模型(LLMs)在此领域的研究空白。通过评估不同LLM配置、使用特定数据集进行微调以及实施检索增强生成(RAG),我们发现在多语言环境中定制提示、数据集增强和迭代推理能够显著提高模型对于奥林匹克级数学问题的解决效率。
本研究开发了一种基于变换器的模型,针对孟加拉语数学文字问题的转化挑战,利用'PatiGonit'数据集实现了97.30%的准确率,验证了教育AI工具的有效性。
本文介绍了BanglishRev数据集,包含174万条孟加拉语与英语混合的电商评论。BanglishBERT模型在二元情感分析中取得94%的准确率和F1分数,验证了数据集的有效性和研究潜力。
本研究回顾了孟加拉语问答系统的发展,分析了数据注释不足和阅读理解数据集缺失等挑战。评估七项研究后,指出LSTM模型和注意力机制等创新方法提升了系统性能,并强调克服这些障碍以增强实际应用能力的必要性。
本文分析了社交媒体上匿名作者的性别和年龄特征,并介绍了新的孟加拉语作者特征数据集BN-AuthProf。研究表明,性别和年龄分类的准确率分别为80%和91%,显示了机器学习在该领域的应用潜力。
本研究针对罗马字母化的孟加拉语与英语混合对话中的信息提取挑战,开发了自动识别相关答案的机制,提升了多语言环境下的信息检索效果。
本研究引入“邦格拉马”模型,成功解决了孟加拉语作为低资源语言的问题。结果表明,该模型在孟加拉语处理任务中表现优异,有望成为新的研究基准,推动未来的发展。
本研究推出了BanStereoSet数据集,用于评估多语言大语言模型中孟加拉语刻板社会偏见。通过本地化现有的数据集,填补了孟加拉语资源的空白,发现了不同社会类别中的显著偏见,推动了更公平语言技术的开发。
IndiBias是一个包含800个句子和偏见测量元组的数据集,用于评估印度社会偏见。研究发现,通过使用IndiBias,语言模型在多个偏见测量指标上表现出更多偏见。
这篇文章介绍了一种生成孟加拉语语法错误句子的方法,通过分类不同错误类型并从正确句子中生成错误句子。作者通过收集孟加拉语母语者撰写的文章中的句子,构建了一个包含语法错误句子和正确句子的数据集。结果表明,母语为孟加拉语的人类评估者比神经模型更准确地检测句子的语法正确性。这种方法也可以应用于其他印度语言。
该研究使用GPT 3.5、GPT 4和DepGPT等模型,对Reddit和X数据集进行分类,创建了孟加拉社交媒体抑郁数据集(BSMDD)。DepGPT模型在零样本学习和少样本学习场景中表现优异,准确度和F1分数接近完美。该研究强调了LLM在各种语言环境中的有效性和灵活性,为抑郁症检测模型提供了深入信息。
本研究论文介绍了一种有效处理孟加拉语下一个词预测和孟加拉语句子生成的双向长短期记忆网络模型,扩展了孟加拉语处理的范围,具有多样性和潜在影响力,在各种新闻门户网站上构建了语料库数据集,并在单词预测方面取得了卓越结果,uni-gram、bi-gram 和 tri-gram 的单词预测准确率分别达到 35%、75% 和 95%。
完成下面两步后,将自动完成登录并继续当前操作。