本文介绍了如何从零开始构建乌尔都语的大语言模型(LLM),涵盖数据准备、标记化、预训练、监督微调和部署等步骤。重点在于通过实践理解LLM的工作原理,最终目标是创建一个可用的乌尔都语聊天机器人,并提供技术栈和代码示例。尽管模型较小,数据集有限,但每个步骤展示了构建LLM的基本概念。
该研究提出了U-MNER框架,以解决乌尔都语多模态命名实体识别数据集不足的问题,并发布了Twitter2015-乌尔都语数据集。通过结合Urdu-BERT和ResNet,模型在该数据集上表现优异,为低资源语言的MNER研究奠定了基础。
本研究针对乌尔都语教育领域命名实体识别(NER)不足的问题,提出了一种新的数据集EDU-NER-2025,专注于教育相关的重要实体。通过详细描述标注过程、规范及挑战,研究分析了乌尔都语正式文本中特有的语言学挑战,为未来的NER研究提供了重要资源和方法论基础。
这是一支我制作的笔。
本研究提出了一种基于变压器模型的方法,显著改善了低资源语言罗马乌尔都语与乌尔都语之间的音译效果,超越了RNN方法,验证了多语种迁移学习的有效性。
本研究提出了乌尔都语LLaMA 1.0模型,旨在提升乌尔都语在多语种大语言模型中的表现。通过在128百万乌尔都语文本上预训练,并利用低秩适应技术微调41000个乌尔都语指令和50000个翻译对,显著提高了模型性能,建立了新的基准。
本研究提出了一种基于注意力机制的双向GRU混合模型,用于检测乌尔都语中的不当内容。该模型在未使用预训练word2Vec层的情况下,达到了84%的准确率,表明注意力层显著提高了效率。
本研究解决了罗马乌尔都语在数字交流中的标准化和语音变异性问题,创建了一个包含75,146对句子的平行数据集,为机器翻译和多语言教育提供了重要资源。
本研究首次提出了大规模乌尔都语信息检索数据集,并通过机器翻译处理MS MARCO数据集。经过微调的模型显著提升了乌尔都语检索性能,推动了多语言信息检索的发展。
本研究解决了社交媒体上假新闻检测中存在的一个重要问题,尤其是在低资源语言如乌尔都语中的有效性不足。研究提出了一种层次检测策略,能够提高对机器生成与人类撰写新闻的区分精度。实验结果表明,该方法在多种数据集和环境下表现出色,展示了其潜在的影响力。
团队SCaLAR在《SemEval-2024任务5》中提出了一种无监督方法,通过相似度和距离生成标签,解决法律论证的二元分类问题。结合CNN、GRU、LSTM和Legal-Bert嵌入,处理法律文本复杂性。引入基于T5的分段摘要,提升模型性能。无监督系统在开发集和测试集上分别提高了20和10个百分点,显示了其有效性。
本文提出了一种非破坏性的基于令牌的方法,用于计算自动语音识别中的字错误率(WER)。该方法能够解决传统计算方式在标点和大小写等方面的信息丢失问题,并能对转录错误进行更细致的分类。研究表明,该方法在多个数据集上的效果相当,并提供了用例分析和互动可视化的网络应用。
通过比较通用预训练模型、特定任务微调模型和自然语言处理中的乌尔都语的性能评估,本文发现特定目的模型在不同任务上始终优于通用目的模型,且 GPT-4-Turbo 的评估结果与人工评估更为接近,为低资源语言提供了有关通用和特定目的大型语言模型的有效性的见解。
完成下面两步后,将自动完成登录并继续当前操作。