小红花·文摘

Transformer模型通过词向量理解语言，解决多义性和同音异义词问题。它利用注意力机制和前馈层处理信息，确保AI理解上下文。提示词注入可操控AI，但需绕过输入输出过滤，方法包括角色扮演和多语言诱导。

AI提示词注入

FreeBuf网络安全行业门户 ·

本研究提出了一种将稠密且不可解释的词向量转化为简化句法表示的方法。通过渐进学习生成分层词向量，结果表明这种句法表示提供了合理的向量解释，并在基准测试中优于原始词向量。

Interpretable Syntactic Representations Facilitate the Generation of Hierarchical Word Vectors

BriefGPT - AI 论文速递 ·

探索词嵌入：在向量数据库中实现Word2Vec和GloVe的Python方法

DEV Community ·

谷歌揭秘大模型计数能力不足的原因是嵌入维度不够大，词向量无法保持正交性。词汇量的增加是导致大模型计数能力下降的主要原因。作者认为这项研究划定了大模型计数能力的上下界，但仍有改进空间。

谷歌揭秘大模型不会数r原因：嵌入维度是关键，不止分词器问题

量子位 ·

【RAG利器】向量数据库qdrant各种用法，多种embedding生成方法 - 乂墨EMO

博客园 - 乂墨EMO ·

本文探讨了多种数据分析方法，包括基于Gromov-Wasserstein距离的下界、维度不敏感欧氏度量（DIEM）和相对内积距离（RPD）。研究表明，这些方法在处理未对齐数据、评估生成模型质量及词向量空间比较中表现出色，具有更强的稳健性和泛化能力，适用于机器学习和深度学习领域。

衡量重要指标：作为嵌入质量鲁棒度的内在距离保持度

BriefGPT - AI 论文速递 ·

本文提出了一种新算法，结合主成分分析和后处理，能够将预训练词向量的维度减半而不损失性能。研究探讨了词频对维度选择的影响，并使用混合乘积距离优化词嵌入效率。实验结果表明，简单的降维方法如PCA能够有效降低句子嵌入维度，并在某些任务中提升性能。

通过弱监督特征选择进行词嵌入维度缩减

BriefGPT - AI 论文速递 ·

本文研究了在低资源环境中简单启发式词向量初始化方法的有效性，发现其在目标词汇规模和适应数据变化时优于复杂方法。同时，探讨了多语言模型中的词汇缺失问题及其解决方案，提出了FOCUS方法以提高嵌入初始化效果，强调跨语言词汇适应对模型性能的提升。

语言模型的词汇扩展和初始化方法的实证比较

BriefGPT - AI 论文速递 ·

本文提出了一种基于强化学习和词向量的问答框架，能够高效处理长篇文档。该框架结合快速筛选和精读策略，在多个数据集上实现了显著的性能提升。研究还探讨了机器阅读理解、视觉丰富文档的问答技术及长篇视频理解的挑战，并提出了新的数据集和模型，以提高多模态系统的认知能力和处理效率。

多视图内容感知长文档检索

BriefGPT - AI 论文速递 ·

词向量是将词语转换成计算机能理解的数值形式的方法，能够根据词与词之间的共现关系学习得到每个词的向量表示。深度学习框架下的语言模型能够学习到上下文相关的词向量，这些向量不仅反映了词语的固有意义，还包含了特定上下文中的语义信息。词向量的应用场景包括文本分类、信息检索、机器翻译、聊天机器人、语义分析和文本生成。OpenAI推荐的获取词向量接口会返回1536维的向量。

词向量是如何来的？ - 蝈蝈俊

蝈蝈俊 ·

该研究提出了一种评估多语言大型语言模型在多形式语法结构方面学习句法的方法。结果表明，该框架在多种编码上一致，预先训练的词向量不偏好成分句法表示，而是倾向于依赖表示，子词标记化需要用于表示语法。

跨语言和语法下预训练模型的评估

BriefGPT - AI 论文速递 ·

Skip-gram模型（2）

从百草园到三味书屋 ·

欢迎 fastText 加入 Hugging Face Hub

Hugging Face - Blog ·