小红花·文摘

为BERT训练准备数据

MachineLearningMastery.com ·

本研究提出了一种任务指导的反课程学习方案，通过调整掩码比例和选择掩盖词汇，改善掩码语言模型的训练过程。结果表明，该方法在情感分析、主题分类和作者归属等任务中显著提升了模型性能。

Task-Informed Anti-Curriculum Masking Techniques Improve Downstream Performance on Text

BriefGPT - AI 论文速递 ·

本研究提出了一种利用掩码语言模型生成合成自由文本医学记录的方法，旨在平衡隐私保护与信息多样性。该系统能够保留关键医疗信息，降低重识别风险，生成高质量、灵活的合成数据，适用于隐私保护的数据研究和应用。

Generating Synthetic Free-text Medical Records with Low Re-identification Risk using Masked Language Modeling

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型（LLMs）在信息提取和文本生成中的应用，提出了一种基于形式语法约束的解码方法，以提升生成结构化输出的能力。通过掩码语言模型（MLM）和提示工程，改善了模型在语义解析和文本生成任务中的性能，尤其在低资源环境下表现优异。研究表明，MLM在生成文本时质量更高，对下游任务影响不大，展示了其未来研究的潜力。

基于语法掩码的 LLM 模型任务中的语法合法性保证

BriefGPT - AI 论文速递 ·

大模型（如chatGPT）的训练是通过自监督学习进行的，自监督学习是一种无监督学习方式，通过伪标签进行训练。常见的自监督学习任务有掩码语言模型和因果语言模型。因果语言模型通过预测下一个词来学习文本的顺序结构和语言生成过程。通过自监督学习，模型可以学习到自然语言的结构和句式。

3分钟搞懂大模型的训练过程

六虎 ·

本文介绍了一种修改的transformer编码器--NarrowBERT，通过在预训练期间仅在屏蔽令牌上操作，增加了掩码语言模型预训练的吞吐量。NarrowBERT在推理时间的吞吐量提高了3.5倍，性能降低最小，并且在多个任务上与标准BERT相当。

DrBERT: BERT 预训练中揭示掩码语言模型解码器的潜力

BriefGPT - AI 论文速递 ·

GEST是一个新的数据集，用于评估掩码语言模型和机器翻译系统中的性别刻板推理。该数据集包含16个关于男性和女性的性别刻板印象的样本，适用于9种斯拉夫语言和英语。通过使用GEST评估了11个掩码语言模型和4个机器翻译系统，发现几乎所有评估模型和语言中都存在显著和一致数量的刻板推理。

女性美丽，男性领导：机器翻译和语言建模中的性别刻板印象

BriefGPT - AI 论文速递 ·

该研究提出了Lil-Bevo作为BabyLM Challenge的参赛作品，使用三种方法对掩码语言模型进行预训练，包括使用音乐数据进行初始预训练、逐步增加序列长度以及对特定令牌进行屏蔽。研究发现，训练较短的序列比训练较长的序列效果更好，预训练音乐可能提高性能但影响很小。针对性的掩码语言建模在一些特定的BLiMP任务上有帮助。

迷你心智：探索 Bebeshka 和 Zlata 婴儿模型

BriefGPT - AI 论文速递 ·

该研究提出了Lil-Bevo作为BabyLM Challenge的参赛作品，使用三种方法对掩码语言模型进行预训练，包括使用音乐数据进行初始预训练、逐步增加序列长度以及对特定令牌进行屏蔽。研究发现，训练较短的序列比训练较长的序列效果更好，预训练音乐对性能提升影响较小。针对性的掩码语言建模在一些特定的BLiMP任务上有帮助。

信息过载：为 BabyLMs 保持简单的训练

BriefGPT - AI 论文速递 ·

通过收集离散声学代码并微调，AudioFormer提出了一种学习音频特征表示的方法。使用神经音频编解码模型生成离散声学代码，并利用它们训练掩码语言模型，获取音频特征表示。实验结果表明，AudioFormer在多个数据集上取得显著提升，甚至超越音频-视觉多模分类模型的性能。

AudioFormer: 从离散声学编码中学习音频特征表示的音频 Transformer

BriefGPT - AI 论文速递 ·

使用TensorFlow和TPU训练🤗 Transformers语言模型

Hugging Face - Blog ·