小红花·文摘

本文介绍了多个针对希伯来语的预训练语言模型和自动标点系统，如AlephBERT、Berel和DictaLM。这些模型在分词、词性标注和情感分析等任务中表现优异，推动了希伯来语自然语言处理的发展。

MenakBERT -- 希伯来文添加元音标记工具

BriefGPT - AI 论文速递 ·

本文介绍了DictaBERT和DictaLM等现代希伯来语的预训练语言模型，展示了它们在文本分析任务中的优越性能。同时发布了以色列议会辩论记录的语料库，包含3000万句子，支持政治讨论风格研究。这些模型和数据集为希伯来语自然语言处理提供了重要支持。

Knesset-DictaBERT：一种用于议会记录的希伯来语言模型

BriefGPT - AI 论文速递 ·

本文介绍了多个自动语音识别（ASR）数据集，特别是德语和希伯来语的音频数据集，以解决资源稀缺问题。希伯来语数据集“ivrit.ai”包含3300小时的合法语音数据，促进了相关技术的发展。此外，研究探讨了利用网络音频数据进行口语识别的模型，显示出其优于传统手工标记数据集的效果，为多语言ASR系统的进步提供了重要支持。

HebDB：用于希伯来语语音处理的弱监督数据集

BriefGPT - AI 论文速递 ·

本文介绍了DictaLM，一个专为现代希伯来语设计的语言模型，拥有70亿参数，旨在促进希伯来语研究。发布了基础模型和针对拉比希伯来语的DictaLM-Rab。研究探讨了如何将大型语言模型适应新语言，解决数据匮乏和灾难性遗忘问题，并提出了Instruct-Align框架，以提升低资源语言的学习能力。

将 LLMs 调整至希伯来语：揭示具有增强词汇和指导能力的 DictaLM 2.0

BriefGPT - AI 论文速递 ·

本研究提出了一种基于格点的神经网络架构，能够同时进行词法分割和句法分析，特别适用于复杂的多词类语言如希伯来语。通过多任务学习和跨语言知识迁移，显著提升了低资源语言的句法分析性能，展示了在古代语言自动句法分析中的潜力。

不含涉密术语和不必要解释的无泪 MRL 解析：以希伯来语为例

BriefGPT - AI 论文速递 ·

本文介绍了最新的希伯来语预训练BERT模型DictaBERT，其在基准测试中表现优于其他模型。作者还发布了两个用于希伯来文本分析的模型版本，包括前缀分词和形态标记。这些模型可以通过简单调用HuggingFace模型来使用，无需额外的库或代码。作者详细描述了训练细节和基准测试结果，并将模型和示例代码发布给社区，以促进希伯来语自然语言处理的研究和开发。

DictaBERT：现代希伯来语的最先进 BERT 套件

BriefGPT - AI 论文速递 ·