小红花·文摘

语言模型将成为支架

blank ·

本文讨论了分词在神经语言模型中的重要性，提出了一种有限状态传导框架，可以有效编码所有可能的分词方案。研究表明，常用的分词方法如BPE和WordPiece可以融入该框架，实现更精准的生成模式匹配，为未来模型输出提供新的约束方法。

基于有限状态传导的分词方法

BriefGPT - AI 论文速递 ·

本文探讨了机器学习中向量空间与离散码的组合结构，分析其与学习动态和人类判断的关系。研究回顾了深度学习在语言处理中的创新，提出评估神经语言模型组合能力的测试方法，并探讨神经机器翻译的组合性能力。结果表明，复合性对成功泛化至关重要，现代语言模型能够学习复合短语的表示。最后总结了组合学习的文献，并指出未来研究方向。

语言模型生命周期中组合性的几何特征

BriefGPT - AI 论文速递 ·

本文研究了神经语言模型（如LSTMs、BERT和GPT-2）在获取单词方面的表现，发现这些模型对单词频率的依赖高于儿童，但在长句中的学习速度较慢。提出了TinyStories数据集用于评估语言模型的能力，并强调小型模型在特定任务中的表现。研究还探讨了语言模型与儿童语言习得的关系，建议使用经过评估的数据集以提升模型的语言理解能力。

小型语言模型如同小词汇：探究基于音素和字素的幼小拉马的语言能力

BriefGPT - AI 论文速递 ·

本文研究神经语言模型在语言习得中的应用，分析不同模型（如LSTMs、BERT、GPT-2）在单词获取过程中的表现。研究发现模型对单词频率依赖性强，但在长句学习上速度较慢。同时强调儿童导向语言数据对模型训练的有效性，并提出将语言模型与儿童语言习得研究更好结合的建议。

一种语言无关的儿童语言习得模型

BriefGPT - AI 论文速递 ·

该研究创建了RealToxicityPrompts数据集，探讨预训练神经语言模型生成有毒文本的能力。研究表明，合理的数据选择和提示工程对毒性检测至关重要。大型语言模型在有毒内容分类和检测任务上表现良好，并提出了改进模型性能的策略。

大型语言模型中的有毒提示高效检测

BriefGPT - AI 论文速递 ·

本文介绍了一种基于知识图谱和神经语言模型的交互式小说生成算法，旨在生成语义连贯且有趣的文本。研究表明，该模型在故事生成任务中优于传统方法，并探讨了大型语言模型在创意写作中的应用及其挑战。尽管大型语言模型在生成儿童故事方面表现出潜力，但仍存在质量问题。研究还分析了温度参数对创造力的影响，发现其作用较为微妙。

评估语言模型在虚构生成中的世界观

BriefGPT - AI 论文速递 ·

本文探讨神经语言模型与语言学理论的关系，特别是其对负极性项的处理能力。研究发现，模型在许可环境中对负极性项有一定理解，但不同实验方法的效果差异显著。通过多种方法评估模型的语法知识，有助于深化语言模型与心理语言学的联系。

预训练语言模型中否定结构的约束研究

BriefGPT - AI 论文速递 ·

本文探讨了神经语言模型的组合性能力及其在自然语言处理中的应用，提出了多种测试方法评估模型在复杂数据集上的表现。研究发现现有模型在组合性方面存在不足，需要改进以提高泛化能力。

可组合的语言模型干预方法

BriefGPT - AI 论文速递 ·

本文提出了多种改进的采样算法，以提升神经语言模型生成自然语言文本的能力，包括改进的 top-p 和 top-k 算法、eta-sampling、自适应温度采样等。这些方法通过动态调整参数和优化策略，显著提高了生成文本的质量和多样性。

高温下的创造力与连贯性的平衡：最小 P 采样

BriefGPT - AI 论文速递 ·

本文研究了元音和谐，采用数据驱动的计算建模方法，利用信息熵度量元音的可预测性，发现神经语言模型能够捕捉多语言中的元音和谐模式。此外，词列表被视为语言类型学研究的重要资源，为低资源语言的研究提供了新的可能性。

建模多变量重叠：一种衡量元音合并的方法

BriefGPT - AI 论文速递 ·

本文探讨了神经语言模型在多任务学习中的表现，发现语法知识在训练初期迅速获得，而语义和推理能力则在后期提升。研究表明，语言模型能够有效学习语言的分布式表示，尤其在翻译语料库中。通过分析不同学习目标下的信息流动，揭示了模型可解释性和多任务学习的重要性。

表示形式作为语言：一个信息论解释的框架

BriefGPT - AI 论文速递 ·

本文提出了一种基于词汇层面masking的后训练策略，旨在解决大规模神经语言模型的时间通用性问题。研究表明，该策略在多个预训练模型和数据集上优于传统训练方法，尤其在文本分类任务中表现突出。通过量化和交叉熵损失训练Chronos模型，评估结果显示其在新数据集上具有良好的零样本性能，简化了预测流程。

ChronosLex: 法律分类任务的时间感知增量训练

BriefGPT - AI 论文速递 ·

本文探讨了自然语言处理中的模型可解释性，提出了多种提高模型解释能力和鲁棒性的方法。研究表明，注释质量和过程对可解释性有显著影响，神经语言模型的解释能力存在局限。通过引入新的特征评分方法和多阶段培训，研究者旨在生成更准确的解释，并提升模型在不同任务中的表现。

利用解释方法增强模型

BriefGPT - AI 论文速递 ·

该研究利用神经语言模型和经典密码算法成功解密美国国会图书馆的加密信件，解密成功率达到75.1%。研究探讨了字符分割和图像聚类等技术，并提出了新的解密方法，展示了机器学习在密码学中的应用。

解决占星杀手的 340 个字符密码

BriefGPT - AI 论文速递 ·

本文探讨了基于transformer模型在工业表格数据中的实体识别应用，提出了表格数据增强策略以提升性能。研究表明，表格的归纳偏差对模型收敛至关重要，并介绍了用于科学表格的实体链接数据集S2abEL，展示了其在实体链接任务中的优越表现。此外，提出了Tabular Entity Linking Lite模型，利用神经语言模型提升表格相关任务的性能。

Wiki-TabNER：通过命名实体识别推进表格解释

BriefGPT - AI 论文速递 ·

研究发现，使用神经语言模型生成的解释仅限于普遍性的陈述，而预测更新和生成理由更具挑战性。这是未来研究的重要方向。

通过半监督蕴涵信号实现合理提取的理由化

BriefGPT - AI 论文速递 ·

神经语言模型与语言科学理论相关。LM训练与儿童语言习得不同，现有评估不够严格且缺乏结构多样性。建议使用现成数据集评估LM与儿童语言习得联系。

单个儿童语言输入对可学习性的系统调查

BriefGPT - AI 论文速递 ·

神经语言模型在语言科学理论中具有潜在相关性，但评估其语法能力的基准可能不够严格。建议使用经过精心策划的数据集来更好地研究神经语言模型与儿童语言习得的联系。

语言模型在问题解决中表现出与人类学习者相同的认知偏差吗？

BriefGPT - AI 论文速递 ·

kNN-LMs是将预训练的神经语言模型与k最近邻居模型线性插值的新模型，通过此方法在Wikitext-103 LM中实现了困惑度为15.79，提高了2.9点，无需额外训练。该方法在扩展到更大的训练数据和实现领域自适应方面也表现出良好效果。最近邻搜索在长尾系统的语言建模中是一种有效的方法。

利用大型语言模型中的偏差：针对高效少样本学习的 “偏差 - kNN

BriefGPT - AI 论文速递 ·