本文介绍了如何从零开始构建乌尔都语的大语言模型(LLM),涵盖数据准备、标记化、预训练、监督微调和部署等步骤。重点在于通过实践理解LLM的工作原理,最终目标是创建一个可用的乌尔都语聊天机器人,并提供技术栈和代码示例。尽管模型较小,数据集有限,但每个步骤展示了构建LLM的基本概念。
该研究提出了U-MNER框架,以解决乌尔都语多模态命名实体识别数据集不足的问题,并发布了Twitter2015-乌尔都语数据集。通过结合Urdu-BERT和ResNet,模型在该数据集上表现优异,为低资源语言的MNER研究奠定了基础。
本研究针对乌尔都语教育领域命名实体识别(NER)不足的问题,提出了一种新的数据集EDU-NER-2025,专注于教育相关的重要实体。通过详细描述标注过程、规范及挑战,研究分析了乌尔都语正式文本中特有的语言学挑战,为未来的NER研究提供了重要资源和方法论基础。
这是一支我制作的笔。
本研究提出了一种基于变压器模型的方法,显著改善了低资源语言罗马乌尔都语与乌尔都语之间的音译效果,超越了RNN方法,验证了多语种迁移学习的有效性。
本研究提出了乌尔都语LLaMA 1.0模型,旨在提升乌尔都语在多语种大语言模型中的表现。通过在128百万乌尔都语文本上预训练,并利用低秩适应技术微调41000个乌尔都语指令和50000个翻译对,显著提高了模型性能,建立了新的基准。
本研究提出了一种基于注意力机制的双向GRU混合模型,用于检测乌尔都语中的不当内容。该模型在未使用预训练word2Vec层的情况下,达到了84%的准确率,表明注意力层显著提高了效率。
本研究解决了罗马乌尔都语在数字交流中的标准化和语音变异性问题,创建了一个包含75,146对句子的平行数据集,为机器翻译和多语言教育提供了重要资源。
本研究首次提出了大规模乌尔都语信息检索数据集,并通过机器翻译处理MS MARCO数据集。经过微调的模型显著提升了乌尔都语检索性能,推动了多语言信息检索的发展。
本研究解决了社交媒体上假新闻检测中存在的一个重要问题,尤其是在低资源语言如乌尔都语中的有效性不足。研究提出了一种层次检测策略,能够提高对机器生成与人类撰写新闻的区分精度。实验结果表明,该方法在多种数据集和环境下表现出色,展示了其潜在的影响力。
本文介绍了比利时法规文章检索数据集(BSARD)及其在法律问答中的应用,评测了多种检索算法,发现精调密集检索模型表现优异。同时,研究探讨了低资源语言法律问答系统的挑战,并提出了有效的技术和方法,展示了人工智能在法律领域的潜力和有效性。
本文质疑现代自动语音识别(ASR)系统在基准数据集上的低词错误率,比较了三种商用ASR系统在真实对话中的表现,发现其词错误率显著高于报告结果。研究提出了高质量数据集的创建准则,并探讨了阿拉伯语及其方言的ASR技术进展,强调人类在识别中的优势。此外,介绍了针对资源稀缺语言的ASR训练数据集生成新流程,旨在提升低资源语言的ASR性能。
通过比较通用预训练模型、特定任务微调模型和自然语言处理中的乌尔都语的性能评估,本文发现特定目的模型在不同任务上始终优于通用目的模型,且 GPT-4-Turbo 的评估结果与人工评估更为接近,为低资源语言提供了有关通用和特定目的大型语言模型的有效性的见解。
完成下面两步后,将自动完成登录并继续当前操作。