本研究针对低资源语言孟加拉语在深伪音频检测中面临的数据集有限和声学特征微妙等问题,提出了BanglaFake数据集,包含12,260个真实和13,260个深伪语句。通过最新的文本转语音模型生成合成语音,并利用初步评估结果表明该数据集在推进孟加拉语深伪检测方面具有重要价值。
本研究评估了九种大型语言模型在孟加拉语消费者健康查询摘要中的表现。结果显示,Mixtral-8x22b-Instruct模型在ROUGE指标上表现最佳,证明了这些模型在低资源语言医疗查询摘要中的潜力。
本文介绍了JavaScript中的多种循环类型,包括for、while、do-while、for-in、for-of和forEach,以及它们的使用场景。掌握这些循环可以使JavaScript编程更加简单和有趣。
本研究解决了孟加拉手语文本翻译问题,创新性地结合德美手语语法与大型语言模型生成合成数据。结果显示,基于mBART-50的模型在PHOENIX-14T测试中表现优异,提出了新的翻译范式,证明合成数据对BdSL翻译的促进作用。
Avro Keyboard是一款开源的孟加拉语输入法软件,因其对孟加拉数字化的贡献获得国家最高民间奖项。创始人Mehdi Hasan Khan强调团队合作的重要性。尽管面临法律挑战,该软件仍广受欢迎,象征着对开源创新的认可,激励未来开发者。
本研究提出了一种多语言命名实体识别(NER)模型,专注于印地语、孟加拉语和马拉地语。经过训练和微调,该模型实现了92.11的F1分数,有效降低了三种语言之间的实体不一致性。
本研究旨在解决孟加拉语社区中假新闻传播问题,提出了一种利用门控循环单元(GRU)识别假新闻的新方法。研究成果显示,该方法在经过全面数据预处理后,达到了94%的高准确率,显著优于其他孟加拉语假新闻检测模型,为相关领域提供了重要的参考数据和方法。
本研究针对低资源语言(如孟加拉语)假新闻检测中的数据和工具不足,提出了BanFakeNews-2.0数据集,包含47,000条真实新闻和13,000条假新闻。通过先进的深度学习模型,检测精度显著提高,推动相关研究和应用的发展。
本研究针对孟加拉语人工智能数学挑战提出了一种系统的方法,填补了大型语言模型(LLMs)在此领域的研究空白。通过评估不同LLM配置、使用特定数据集进行微调以及实施检索增强生成(RAG),我们发现在多语言环境中定制提示、数据集增强和迭代推理能够显著提高模型对于奥林匹克级数学问题的解决效率。
本研究通过变换器模型解决孟加拉语数学文字问题的转化挑战,开发了包含10,000个问题的"PatiGonit"数据集,准确率达到97.30%。该研究为孟加拉自然语言处理和学生问题解决能力提供了新方法。
本文介绍了BanglishRev数据集,包含174万条孟加拉语与英语混合的电商评论。BanglishBERT模型在二元情感分析中取得94%的准确率和F1分数,验证了数据集的有效性和研究潜力。
本研究回顾了孟加拉语问答系统的发展,分析了数据注释不足和阅读理解数据集缺失等挑战。评估七项研究后,指出LSTM模型和注意力机制等创新方法提升了系统性能,并强调克服这些障碍以增强实际应用能力的必要性。
本文分析了社交媒体上匿名作者的性别和年龄特征,并介绍了新的孟加拉语作者特征数据集BN-AuthProf。研究表明,性别和年龄分类的准确率分别为80%和91%,显示了机器学习在该领域的应用潜力。
本研究探讨了在代码混合对话中提取信息的挑战,特别是罗马字母化的孟加拉语与英语的混合。通过开发自动识别机制,显著提升了多语言和非正式文本环境中的信息检索效果。
本研究引入“邦格拉马”模型,成功解决了孟加拉语作为低资源语言的问题。结果表明,该模型在孟加拉语处理任务中表现优异,有望成为新的研究基准,推动未来的发展。
本研究推出了BanStereoSet数据集,用于评估多语言大语言模型中孟加拉语刻板社会偏见。通过本地化现有的数据集,填补了孟加拉语资源的空白,发现了不同社会类别中的显著偏见,推动了更公平语言技术的开发。
本文探讨了孟加拉语社交媒体上的仇恨言论检测,构建了包含30,000条评论的数据集,并通过深度学习模型进行实验,SVM模型的准确率达到87.5%。研究提出了多种检测方法,强调了在低资源语言环境下的有效性,为未来研究奠定基础。
本文评估了大型语言模型(LLMs)在低资源语言(如辛哈拉语、孟加拉语和非洲语言)上的表现。研究发现,Claude 和 GPT-4 在辛哈拉语中表现良好,而Llama和Mistral则较差。孟加拉语的LLMs在生成任务中面临挑战,需开发更高效的模型。总体而言,LLMs在非洲语言上的表现普遍低于高资源语言,呼吁加强对这些语言的研究和支持。
IndiBias是一个评估印度社会偏见的数据集,包含800个句子,提供英语和印地语版本。研究比较了不同语言模型的偏见表现,发现大多数模型在交叉群体中存在偏见。文章分析了偏见检测方法的有效性,并提出改进方向,以建立更公平的语言模型。
本文探讨了孟加拉语自动语音识别和语法评估的研究进展,提升了识别性能和语法错误检测。研究创建了多方言语料库,并提出了高准确率的动词词根提取算法,为孟加拉语的机器翻译和语音处理提供了重要参考。
完成下面两步后,将自动完成登录并继续当前操作。