小红花·文摘

通过像素级回退克服词汇限制

Apple Machine Learning Research ·

本研究提出了两项创新，旨在解决预训练语言模型在固定分词方案下的低效问题，特别是在多语言和专业应用中。通过Tokenadapt分词器移植和多词超标记的预分词学习，显著降低了重新训练的需求并提升了性能，展现出广泛的潜在影响。

Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种校准方法（RepCali），有效解决了微调预训练语言模型时编码器与解码器输入差异的问题，显著提升了下游任务的性能。

RepCali：通过潜在空间中的表示校准实现高效微调的预训练语言模型

BriefGPT - AI 论文速递 ·

本研究提出了一种多阶段影响函数，结合Kronecker因子化参数化，解决了大规模预训练语言模型的可扩展性问题。实证结果表明，该方法在模型预测解释方面表现优越。

Scalable Multi-Stage Influence Functions via Eigenvalue-Corrected Kronecker Factorization Parameterization

BriefGPT - AI 论文速递 ·

本研究通过构建大型预训练语言模型法律问题库，提出三步方法将复杂法律文件转化为易懂知识，并开发互动推荐系统，帮助用户快速获取相关法律信息，提升公众法律知识获取能力。

Bringing Legal Knowledge to the Public by Constructing a Legal Question Bank Using Large-Scale Pre-Trained Language Models

BriefGPT - AI 论文速递 ·

本研究提出SALAD方法，通过生成结构感知和反事实的增强数据，结合对比学习，解决自然语言处理任务中微调预训练语言模型的虚假相关性问题。实验结果表明，SALAD显著提升了模型的鲁棒性和泛化能力。

SALAD: Improving Robustness and Generalization through Structure-Aware and LLM-Driven Augmented Data

BriefGPT - AI 论文速递 ·

本研究提出了一种创新框架，结合语法解析和语义角色标记，利用预训练语言模型提升共指解析的准确性。实验结果显示，该方法在多个数据集上超越传统系统，显著提高了引用歧义的识别准确率。

Enhancing Coreference Resolution with Pretrained Language Models: Bridging the Gap Between Syntax and Semantics

BriefGPT - AI 论文速递 ·

本研究分析了预训练语言模型中的性别偏见，揭示了不同模型在性别编码上的一致性，并指出常见去偏见技术效果有限，甚至可能加剧偏见，为改善偏见缓解策略提供了指导。

预训练语言模型表示中的性别编码模式

BriefGPT - AI 论文速递 ·

本研究提出B-cos LMs方法，旨在提高预训练语言模型的可解释性。通过将模型转化为B-cos网络并结合任务微调，B-cos LMs在生成更强解释的同时，保持了与传统微调相当的性能，展现出广泛的应用潜力。

B-cos LM: Efficient Transformation of Pre-trained Language Models for Enhanced Explainability

BriefGPT - AI 论文速递 ·

本研究提出了一种新的数学框架，结合预训练语言模型生成器和过程验证器，以解决生成算法中的约束问题。研究表明，验证器能够将复杂问题转化为可处理的问题，并通过回溯方法提升生成的效率、准确性和多样性。

On the Query Complexity of Verifier-Assisted Language Generation

BriefGPT - AI 论文速递 ·

本研究提出了一种强化学习框架，旨在优化预训练语言模型，以提高定理形式化和证明的准确性。实验结果表明，该方法显著提升了准确率，对理论证明任务具有重要影响。

Enhancing Large Language Models as Formal Theorem Provers

BriefGPT - AI 论文速递 ·

本研究提出了一种名为PGB的剪枝方法，旨在解决大型预训练语言模型（如BERT）的推理速度和内存使用问题。PGB通过识别重要权重并剪除不重要权重，提高了模型的压缩效率和稀疏性，同时保持了准确性。

One-shot Pruning of BERT through Weight Grouping and Arrangement

BriefGPT - AI 论文速递 ·

本研究探讨了预训练语言模型（PLMs）在认知科学理论中的潜力与挑战，涉及架构、训练数据和可解释性问题。总结了PLMs在评估人类认知性能中的假设及其潜在陷阱，并提出了使用PLMs作为可信理论的标准。

The Potential and Pitfalls of Using Pre-trained Language Models as Theories in Cognitive Science

BriefGPT - AI 论文速递 ·

本研究探讨了大型预训练语言模型在标准数据集上表现良好但在对比集上表现不佳的问题。通过引入复杂的对比集进行训练，提出了一种提高模型鲁棒性的方法，使其在对比集上的准确率接近90%。强调了多样化和挑战性训练数据的重要性。

From Superficial Patterns to Semantic Understanding: Fine-Tuning Language Models on Contrast Sets

BriefGPT - AI 论文速递 ·

Meta探索大模型记忆层，扩展至1280亿个参数，优于MoE

机器之心 ·

本研究探讨了大型预训练语言模型在代码漏洞检测中的应用，微调了四种开源模型并与中型模型进行了对比，展示了其在检测代码漏洞方面的潜力，尤其针对样本长度和类别不平衡问题。研究成果可供社区使用，推动该领域发展。

Research on the Application of Large Language Models in Code Vulnerability Detection: An Experimental Study

BriefGPT - AI 论文速递 ·

本研究提出了“神经元经验梯度”概念，解决了神经元激活与模型输出关系量化的问题。通过NeurGrad方法高效计算这些梯度，实验表明其能够有效捕捉知识，揭示技能神经元的高效性和通用性，对理解预训练语言模型的知识存储机制具有重要意义。

神经元经验梯度：连接神经元的线性可控性与表征能力

BriefGPT - AI 论文速递 ·

本研究提出了一种新框架S+NER，旨在解决命名实体识别中的实体外错误（OOE）问题。该框架通过预训练语言模型理解上下文，并结合对比学习和模板池化方法优化表示。实验结果表明，S+NER在多个基准数据集上优于现有的OOE-NER模型。

Mitigating Out-of-Entity Errors in Named Entity Recognition: A Sentence-Level Strategy

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的两步预测方法，解决了预训练语言模型在过度训练环境下的任务表现预测问题。通过小规模的“阶梯”模型，成功预测目标模型的任务准确性，资源占用仅为1%。

Establishing Task Scaling Laws through Computationally Efficient Model Staircases

BriefGPT - AI 论文速递 ·

本文探讨了预训练语言模型在气候变化领域的应用，提出了CLIMATEBERT和ClimateGPT模型，显著提升了气候文本处理效果。研究建立了气候变化基准ClimaBench，评估了大型语言模型的知识时效性，并强调了环境影响与模型性能的平衡，为气候变化提供了更可靠的信息和决策支持。

使用小型语言模型高效进行气候变化报告的基于方面的总结

BriefGPT - AI 论文速递 ·