小红花·文摘

本文介绍了DictaBERT和DictaLM等现代希伯来语的预训练语言模型，展示了它们在文本分析任务中的优越性能。同时发布了以色列议会辩论记录的语料库，包含3000万句子，支持政治讨论风格研究。这些模型和数据集为希伯来语自然语言处理提供了重要支持。

Knesset-DictaBERT：一种用于议会记录的希伯来语言模型

BriefGPT - AI 论文速递 ·

本文介绍了最新的希伯来语预训练BERT模型DictaBERT，其在基准测试中表现优于其他模型。作者还发布了两个用于希伯来文本分析的模型版本，包括前缀分词和形态标记。这些模型可以通过简单调用HuggingFace模型来使用，无需额外的库或代码。作者详细描述了训练细节和基准测试结果，并将模型和示例代码发布给社区，以促进希伯来语自然语言处理的研究和开发。

DictaBERT：现代希伯来语的最先进 BERT 套件

BriefGPT - AI 论文速递 ·