BriefGPT - AI 论文速递 ·

通过减少嵌入变异性实现稳定的语言模型预训练

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

该研究探讨了BERT微调中随机种子、权重初始化和训练数据排序对结果的影响，并提出最佳实践。通过引入分层噪声稳定性正则化（LNSR）等技术，显著提升了自然语言处理任务的泛化能力和稳定性。同时，研究分析了词元嵌入的非各向同性问题，提出了DefinitionEMB方法，改善了低频词的模型性能。

🎯

❓

不同的随机种子会导致BERT微调结果的显著差异。

引入分层噪声稳定性正则化（LNSR）可以显著改善微调的稳定性和泛化能力。

DefinitionEMB方法通过构建语义相关且各向同性的词元嵌入，显著提升了低频词的模型性能。

权重初始化和训练数据排序对BERT微调结果有重要影响，可能导致不同的性能表现。

研究提出了最佳实践并公开实验数据，以供更深入的分析和验证。

通过注入高斯噪声或浸入式噪声，对fine-tuned模型的隐藏表示进行规范化，可以解决过拟合问题。

🏷️

全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
The latest AI news we announced in May 2026
May AI recap
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
MAHA希望将棉花打造成新的牛脂
美国农业部推出“伟大的美国棉花计划”，旨在推广本土棉花，支持农民和国内制造业。尽管消费者对天然纤维服装的兴趣上升，但棉花生产面临高成本和化学品使用问题，且...
深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...