土耳其语与函数式编程都追求简洁、结构化和逻辑性。土耳其语通过动词隐含代词,函数式编程则避免外部依赖。两者通过组合小单元构建复杂表达,保持和谐一致,消除冗余,展现优雅与高效。
本研究针对历史土耳其语这一在计算语言学领域中尚未被充分探索的领域,提出了基础资源和模型。研究中首次推出了历史土耳其语命名实体识别数据集HisTR和首次建立的Universal Dependencies语法树库OTA-BOUN,以及利用这些数据集训练的变压器模型,显著提高了对历史土耳其语的计算分析能力,为今后的研究提供了基准和契机。
本研究旨在填补土耳其语词根化研究中对词义敏感性缺失的空白,提出了一种结合双向LSTM和土耳其BERT模型的创新方法,能够同时进行词根识别和语法标记。研究结果表明,该模型在准确性上超越了SIGMORPHON 2019竞赛的结果,对土耳其语自然语言处理领域具有重要影响。
GECTurk WEB是一个在线平台,专注于检测和纠正土耳其语语法错误。它不仅能识别常见错误,还提供解释和反馈。研究显示,用户友好性得分为88.3,80%的参与者认为该平台在学习语法规则方面有显著帮助,具有重要的教育价值。
KMMLU是一个新的韩语基准,包含35,030个专家级多项选择题,涵盖人文学科到STEM学科。测试发现,目前的韩语LLMs表现较差,最好的公开模型准确率为50.54%,远低于人类平均表现62.6%。需要进一步改进韩语LLMs,而KMMLU提供了正确工具。数据集已在Hugging Face Hub上公开。
Azure DevOps Server发布了2022.1 Patch 4补丁,修复了土耳其语环境下搜索结果不可用的问题。用户可通过运行devops2022.1patch4.exe文件验证补丁安装。
使用有机数据驱动的方法,通过插入文本,并通过清理用于进行训练的数据,构建土耳其语语法错误校正数据集,并在两个土耳其语语法错误校正测试集上达到最新的成果,同时证明了该方法在训练语言模型时的有效性。
自1923年土耳其建国以来,土耳其语发生了大量变化。本研究通过分析土耳其历时语料库回答了两个主要研究问题:土耳其词汇和写作规范自1920年代以来发生了怎样的变化。研究结果显示,随着时间推移,土耳其词汇差异越大,新的词汇取代了旧的词汇,写作规范也发生了变化。这项研究突出了土耳其语在语言的多个方面中的剧变。
本文通过对不同类型的上下文学习skip-gram词嵌入进行全面评估,发现内在任务在特定类型的上下文和更高维度方面表现更好,而对于大多数外在任务,需要更仔细的调整来找到最佳设置。此外,使用不同上下文类型学习的简单词嵌入的串联可以进一步提升性能。另外,本文还提出了一种新的skip-gram模型变体,从替换词的加权上下文中学习单词嵌入。
研究人员开发了专为资源稀缺的土耳其语设计的语言模型TURNA,在自然语言理解和生成任务中表现出色,与其他多语言模型竞争力相当。
使用BPE分词工具在土耳其语语料库上预训练RoBERTa模型,优于BERTurk模型在词性标注任务中,但在IMST数据集上表现不佳。在土库曼语的XTREME数据集上的命名实体识别任务中获得竞争性分数。公开了预训练模型和分词工具。
由于土耳其方面训练句子向量所需的高质量数据集有限,研究人员提出了一种通过两个连续阶段对预训练的编码-解码模型进行微调的方法。这种方法在有限的目标语言数据集上能够以高准确率在短时间内进行微调。
本研究介绍了一种灵活可扩展的合成数据生成流程,应用于土耳其语,生成了13万句高质量平行句子。使用神经机器翻译、序列标注和前缀调参等三种基线模型,取得了良好的结果,并对领域外数据集进行了详尽实验,获得了有关所提方法的可迁移性和鲁棒性的深入见解。通过发布数据集、基线模型和合成数据生成流程,鼓励进一步研究土耳其语错误检测和纠正。
该研究使用自动翻译工具将土耳其编程指南的语料库从2,000篇文章扩充到52,000篇,并实施了强大的基准模型。研究发现,针对步骤指令文本的语言专用模型在大多数任务上始终优于多语言模型。
完成下面两步后,将自动完成登录并继续当前操作。