BriefGPT - AI 论文速递 ·

Knesset-DictaBERT：一种用于议会记录的希伯来语言模型

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

本文介绍了DictaBERT和DictaLM等现代希伯来语的预训练语言模型，展示了它们在文本分析任务中的优越性能。同时发布了以色列议会辩论记录的语料库，包含3000万句子，支持政治讨论风格研究。这些模型和数据集为希伯来语自然语言处理提供了重要支持。

🎯

❓

DictaBERT 是一种用于现代希伯来语的预训练 BERT 模型，在多个基准测试中表现优越。

该语料库包含从1998年到2022年以色列议会的所有主要和委员会记录，共有3000万句子，注有形态-句法信息。

DictaLM 是一个专为现代希伯来语设计的大规模语言模型，拥有70亿参数，主要基于希伯来语中心化的数据进行训练。

开发者可以通过调用 HuggingFace 模型的一个简单调用来进行前缀分词和形态标记，无需集成额外的库或代码。

AlephBERT 在多个希伯来语任务和基准测试中提供了新的最先进结果，包括分词、词性标注和情感分析。

D-Nikud 是一种结合了 LSTM 网络和基于 BERT 的预训练模型优势的希伯来语音符标注方法，展示了在多个基准数据集上的最先进结果。

🏷️

深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...
WPS笔记正式发布：AI贯穿记录、整理与复用全过程
金山办公于6月5日发布了AI笔记产品WPS笔记，旨在提升个人知识管理。该产品支持语音、图片和文字等多种信息录入方式，强调信息的主动理解与复用。通过多级AI...
Replit展示了氛围编码如何获得自己的金融基础设施——以及通往盈利的路径
Making apps is easier than it’s ever been, but making money from them is anot...
Cloudflare收购VoidZero：开放网络的一部分是变得更加稳定，还是变得更加脆弱？
Cloud network security and content delivery network company Cloudflare announ...
60分钟内消失
CBS的《60分钟》节目面临危机，著名记者斯科特·佩利因质疑管理层而被解雇。节目记者对此决定表示不安，认为新闻室不应像独裁政权运作。佩利指责新管理层在政治...
20260605的胡言乱语
本文介绍了多种技术工具和方法，包括YAMLResume简历管理工具、终端中的cal命令、Shlink短链接服务、systemd timers替代cron、...