京东科技开发者 ·

【NLP 系列】Bert 词向量的空间分布

💡 原文中文，约5400字，阅读约需13分钟。

📝

内容提要

Bert词向量存在各向异性，高频词分布狭小，低频词训练不足，导致计算相似度存在问题，可以采用cos正则、高斯分布等方法纠正。

🎯

关键要点

Bert预训练模型在语义相似度任务上表现不如Word2Vec和Glove。
Bert词向量存在各向异性，高频词分布狭小，低频词训练不足，导致相似度计算问题。
Bert词向量的空间分布呈现锥形，任意两个词向量正相关，降低模型性能。
表征退化问题的直观解释是词嵌入被推向隐藏状态的方向，导致大多数单词聚集在一起。
理论解释表明，未出现词的嵌入与隐藏状态的结构有关，低频词在优化过程中彼此接近。
论文研究表明高频词靠近原点，低频词远离原点，且低频词与其近邻距离更远。
针对Bert词向量问题，可以采用cos正则和高斯分布等方法进行纠正。

🏷️

继续阅读

2026年实时音视频如何重塑”一起冥想”体验：纯净人声、空间音效与AI引导的技术落地
“一起冥想”是一款多人在线同步冥想应用，基于ZEGO的低延迟音视频技术，提供清晰的人声、沉浸式音效和实时互动。用户可通过AI降噪和3D音效在虚拟空间中体验...
让原生体验「接地气」：Pixel Text 与「原点系列」工具集
本文介绍了开发者推出的应用Pixel Text，旨在改善原生短信体验。该应用提炼短信中的关键信息，如验证码和取件码，减少用户查找成本。同时，通过本地模型识...
外壳的铸造 — v5的诞生
文章讨论了v5的诞生过程，描述了旧服务器的迁移与更新。团队通过483次提交逐步改进系统，保持了连续性。对比旧版与新版，揭示了数据结构的变化和命名的困惑，强...
通过玩“战舰”教人工智能代理提出更好的问题
麻省理工学院的研究显示，小型人工智能模型在经典游戏“战舰”中表现优于大型模型，成本仅为其1%。研究指出，通过改进模型的提问能力和使用蒙特卡罗推理策略，可以...
托德·马乔弗因在音乐和技术领域的贡献而获得乔治·皮博迪奖
托德·马乔弗将获得乔治·皮博迪奖，以表彰他在美国音乐和舞蹈领域的杰出贡献。他是麻省理工学院媒体实验室的教授，以其在参与性歌剧、人工智能和创意技术方面的开创性工作而闻名。
大卫·惠勒：pg_clickhouse 0.3.1：现在支持更多C语言
pg_clickhouse 0.3.1版本发布，更新了驱动库，替换为新的clickhouse-c库，提升了稳定性和编译速度，减少了二进制文件大小。新库支持...

【NLP 系列】Bert 词向量的空间分布

内容提要

关键要点

标签

继续阅读