本文提出了一种无词汇编码器,通过将文本转化为像素生成输入嵌入,增强预训练语言模型。实验结果表明,该方法在机器翻译和跨语言迁移方面显著优于基于分词的方法,同时提升了单语模型的多语言能力,并减少了解码延迟。
本研究提出了两项创新,旨在解决预训练语言模型在固定分词方案下的低效问题,特别是在多语言和专业应用中。通过Tokenadapt分词器移植和多词超标记的预分词学习,显著降低了重新训练的需求并提升了性能,展现出广泛的潜在影响。
本研究提出了一种校准方法(RepCali),有效解决了微调预训练语言模型时编码器与解码器输入差异的问题,显著提升了下游任务的性能。
本研究提出了一种多阶段影响函数,结合Kronecker因子化参数化,解决了大规模预训练语言模型的可扩展性问题。实证结果表明,该方法在模型预测解释方面表现优越。
本研究通过构建大型预训练语言模型法律问题库,提出三步方法将复杂法律文件转化为易懂知识,并开发互动推荐系统,帮助用户快速获取相关法律信息,提升公众法律知识获取能力。
本研究提出SALAD方法,通过生成结构感知和反事实的增强数据,结合对比学习,解决自然语言处理任务中微调预训练语言模型的虚假相关性问题。实验结果表明,SALAD显著提升了模型的鲁棒性和泛化能力。
本研究提出了一种创新框架,结合语法解析和语义角色标记,利用预训练语言模型提升共指解析的准确性。实验结果显示,该方法在多个数据集上超越传统系统,显著提高了引用歧义的识别准确率。
本研究分析了预训练语言模型中的性别偏见,揭示了不同模型在性别编码上的一致性,并指出常见去偏见技术效果有限,甚至可能加剧偏见,为改善偏见缓解策略提供了指导。
本研究提出B-cos LMs方法,旨在提高预训练语言模型的可解释性。通过将模型转化为B-cos网络并结合任务微调,B-cos LMs在生成更强解释的同时,保持了与传统微调相当的性能,展现出广泛的应用潜力。
本研究提出了一种新的数学框架,结合预训练语言模型生成器和过程验证器,以解决生成算法中的约束问题。研究表明,验证器能够将复杂问题转化为可处理的问题,并通过回溯方法提升生成的效率、准确性和多样性。
本研究提出了一种强化学习框架,旨在优化预训练语言模型,以提高定理形式化和证明的准确性。实验结果表明,该方法显著提升了准确率,对理论证明任务具有重要影响。
本研究提出了一种名为PGB的剪枝方法,旨在解决大型预训练语言模型(如BERT)的推理速度和内存使用问题。PGB通过识别重要权重并剪除不重要权重,提高了模型的压缩效率和稀疏性,同时保持了准确性。
本研究探讨了预训练语言模型(PLMs)在认知科学理论中的潜力与挑战,涉及架构、训练数据和可解释性问题。总结了PLMs在评估人类认知性能中的假设及其潜在陷阱,并提出了使用PLMs作为可信理论的标准。
本研究探讨了大型预训练语言模型在标准数据集上表现良好但在对比集上表现不佳的问题。通过引入复杂的对比集进行训练,提出了一种提高模型鲁棒性的方法,使其在对比集上的准确率接近90%。强调了多样化和挑战性训练数据的重要性。
预训练语言模型通过记忆层提升性能,能够有效存储和检索信息。Meta的研究显示,记忆层在大型语言模型中优于传统密集模型,并在多个任务中显著提高效率和性能。
本研究探讨了大型预训练语言模型在代码漏洞检测中的应用,微调了四种开源模型并与中型模型进行了对比,展示了其在检测代码漏洞方面的潜力,尤其针对样本长度和类别不平衡问题。研究成果可供社区使用,推动该领域发展。
本研究提出了“神经元经验梯度”概念,解决了神经元激活与模型输出关系量化的问题。通过NeurGrad方法高效计算这些梯度,实验表明其能够有效捕捉知识,揭示技能神经元的高效性和通用性,对理解预训练语言模型的知识存储机制具有重要意义。
本研究提出了一种新框架S+NER,旨在解决命名实体识别中的实体外错误(OOE)问题。该框架通过预训练语言模型理解上下文,并结合对比学习和模板池化方法优化表示。实验结果表明,S+NER在多个基准数据集上优于现有的OOE-NER模型。
本研究提出了一种新颖的两步预测方法,解决了预训练语言模型在过度训练环境下的任务表现预测问题。通过小规模的“阶梯”模型,成功预测目标模型的任务准确性,资源占用仅为1%。
本文探讨了预训练语言模型在气候变化领域的应用,提出了CLIMATEBERT和ClimateGPT模型,显著提升了气候文本处理效果。研究建立了气候变化基准ClimaBench,评估了大型语言模型的知识时效性,并强调了环境影响与模型性能的平衡,为气候变化提供了更可靠的信息和决策支持。
完成下面两步后,将自动完成登录并继续当前操作。