本文介绍了多个针对希伯来语的预训练语言模型和自动标点系统,如AlephBERT、Berel和DictaLM。这些模型在分词、词性标注和情感分析等任务中表现优异,推动了希伯来语自然语言处理的发展。
本文介绍了DictaBERT和DictaLM等现代希伯来语的预训练语言模型,展示了它们在文本分析任务中的优越性能。同时发布了以色列议会辩论记录的语料库,包含3000万句子,支持政治讨论风格研究。这些模型和数据集为希伯来语自然语言处理提供了重要支持。
本文介绍了多个自动语音识别(ASR)数据集,特别是德语和希伯来语的音频数据集,以解决资源稀缺问题。希伯来语数据集“ivrit.ai”包含3300小时的合法语音数据,促进了相关技术的发展。此外,研究探讨了利用网络音频数据进行口语识别的模型,显示出其优于传统手工标记数据集的效果,为多语言ASR系统的进步提供了重要支持。
本文介绍了DictaLM,一个专为现代希伯来语设计的语言模型,拥有70亿参数,旨在促进希伯来语研究。发布了基础模型和针对拉比希伯来语的DictaLM-Rab。研究探讨了如何将大型语言模型适应新语言,解决数据匮乏和灾难性遗忘问题,并提出了Instruct-Align框架,以提升低资源语言的学习能力。
本研究提出了一种基于格点的神经网络架构,能够同时进行词法分割和句法分析,特别适用于复杂的多词类语言如希伯来语。通过多任务学习和跨语言知识迁移,显著提升了低资源语言的句法分析性能,展示了在古代语言自动句法分析中的潜力。
本文介绍了最新的希伯来语预训练BERT模型DictaBERT,其在基准测试中表现优于其他模型。作者还发布了两个用于希伯来文本分析的模型版本,包括前缀分词和形态标记。这些模型可以通过简单调用HuggingFace模型来使用,无需额外的库或代码。作者详细描述了训练细节和基准测试结果,并将模型和示例代码发布给社区,以促进希伯来语自然语言处理的研究和开发。
完成下面两步后,将自动完成登录并继续当前操作。