小红花·文摘

如何构建专属语言的大语言模型 [完整手册]

freeCodeCamp.org ·

该研究提出了U-MNER框架，以解决乌尔都语多模态命名实体识别数据集不足的问题，并发布了Twitter2015-乌尔都语数据集。通过结合Urdu-BERT和ResNet，模型在该数据集上表现优异，为低资源语言的MNER研究奠定了基础。

乌尔都语多模态命名实体识别的基准数据集和框架

BriefGPT - AI 论文速递 ·

本研究针对乌尔都语教育领域命名实体识别（NER）不足的问题，提出了一种新的数据集EDU-NER-2025，专注于教育相关的重要实体。通过详细描述标注过程、规范及挑战，研究分析了乌尔都语正式文本中特有的语言学挑战，为未来的NER研究提供了重要资源和方法论基础。

EDU-NER-2025：使用XLM-RoBERTa与X（前身为Twitter）在乌尔都语教育文本中的命名实体识别

BriefGPT - AI 论文速递 ·

罗马乌尔都语的动机 - 穆扎米尔·霍萨

DEV Community ·

本研究提出了一种基于变压器模型的方法，显著改善了低资源语言罗马乌尔都语与乌尔都语之间的音译效果，超越了RNN方法，验证了多语种迁移学习的有效性。

低资源罗马乌尔都语与乌尔都语的音译：基于变压器模型的方法

BriefGPT - AI 论文速递 ·

本研究提出了乌尔都语LLaMA 1.0模型，旨在提升乌尔都语在多语种大语言模型中的表现。通过在128百万乌尔都语文本上预训练，并利用低秩适应技术微调41000个乌尔都语指令和50000个翻译对，显著提高了模型性能，建立了新的基准。

乌尔都语LLaMA 1.0：低资源环境下的数据集整理、预处理和评估

BriefGPT - AI 论文速递 ·

本研究提出了一种基于注意力机制的双向GRU混合模型，用于检测乌尔都语中的不当内容。该模型在未使用预训练word2Vec层的情况下，达到了84%的准确率，表明注意力层显著提高了效率。

Application of Attention-Based Bidirectional GRU Hybrid Model in Urdu Inappropriate Content Detection

BriefGPT - AI 论文速递 ·

本研究解决了罗马乌尔都语在数字交流中的标准化和语音变异性问题，创建了一个包含75,146对句子的平行数据集，为机器翻译和多语言教育提供了重要资源。

ERUPD - 英文与罗马乌尔都语平行数据集

BriefGPT - AI 论文速递 ·

本研究首次提出了大规模乌尔都语信息检索数据集，并通过机器翻译处理MS MARCO数据集。经过微调的模型显著提升了乌尔都语检索性能，推动了多语言信息检索的发展。

Supporting Information Retrieval for Low-Resource Languages: Establishing the Urdu MS MARCO Benchmark

BriefGPT - AI 论文速递 ·

本研究解决了社交媒体上假新闻检测中存在的一个重要问题，尤其是在低资源语言如乌尔都语中的有效性不足。研究提出了一种层次检测策略，能够提高对机器生成与人类撰写新闻的区分精度。实验结果表明，该方法在多种数据集和环境下表现出色，展示了其潜在的影响力。

乌尔都语人类与机器生成假新闻的检测

BriefGPT - AI 论文速递 ·

团队SCaLAR在《SemEval-2024任务5》中提出了一种无监督方法，通过相似度和距离生成标签，解决法律论证的二元分类问题。结合CNN、GRU、LSTM和Legal-Bert嵌入，处理法律文本复杂性。引入基于T5的分段摘要，提升模型性能。无监督系统在开发集和测试集上分别提高了20和10个百分点，显示了其有效性。

LEGAL-UQA：一个低资源的乌尔都语-英语法律问答数据集

BriefGPT - AI 论文速递 ·

本文提出了一种非破坏性的基于令牌的方法，用于计算自动语音识别中的字错误率（WER）。该方法能够解决传统计算方式在标点和大小写等方面的信息丢失问题，并能对转录错误进行更细致的分类。研究表明，该方法在多个数据集上的效果相当，并提供了用例分析和互动可视化的网络应用。

我们立足何处：乌尔都语自动语音识别模型基准评估

BriefGPT - AI 论文速递 ·

通过比较通用预训练模型、特定任务微调模型和自然语言处理中的乌尔都语的性能评估，本文发现特定目的模型在不同任务上始终优于通用目的模型，且 GPT-4-Turbo 的评估结果与人工评估更为接近，为低资源语言提供了有关通用和特定目的大型语言模型的有效性的见解。

综合人才 vs 专才：评估乌尔都语大型语言模型

BriefGPT - AI 论文速递 ·