小红花·文摘

为长时间运行的代理构建上下文修剪管道

MachineLearningMastery.com ·

本文探讨了词嵌入的发展及其在自然语言处理中的重要性。词嵌入将离散词转换为连续向量，解决了传统one-hot编码的维度灾难和稀疏性问题。通过分析Firth的分布假设、word2vec和GloVe等方法，强调了词嵌入在捕捉语义相似性和类比关系中的作用。现代NLP模型如BERT和ELMo推动了上下文化词嵌入的发展，使同一词在不同上下文中具有不同表示。

【Transformer 与注意力机制】08 嵌入：从 one-hot 到分布式表示

土法炼钢兴趣小组的博客 ·

7种利用大型语言模型（LLM）嵌入进行高级特征工程的技巧

MachineLearningMastery.com ·

Semantic Kernel的Memory系统模拟人类记忆，分为语义记忆和短期记忆，支持信息存储与检索。通过向量存储和嵌入技术，AI能够基于语义相似性进行智能决策，从而提升对话体验和生成能力。

Semantic Kernel内存管理系统——为AI注入持久记忆与上下文感知能力

dotNET跨平台 ·

本地Atlas和Ollama的MongoDB向量搜索索引

DEV Community ·

本研究提出了一种新的无监督对比学习框架TNCSE，解决了句子嵌入中仅考虑方向而忽视模长特征的问题。通过约束正样本的模长特征，优化了无监督学习，实验证明其在语义文本相似性任务中表现优异。

TNCSE: Norm Constraints of Tensors for Unsupervised Contrastive Learning of Sentence Embeddings

BriefGPT - AI 论文速递 ·

该研究提出了一种通用闭环预测编码框架，用于建模听觉工作记忆，填补了神经网络领域的研究空白。评估结果表明，该框架在环境声音和语音数据集上具有高语义相似性，展现出重要的应用潜力。

A General Closed-Loop Predictive Coding Framework for Auditory Working Memory

BriefGPT - AI 论文速递 ·

本研究评估RWKV语言模型在零样本条件下生成句子嵌入的效果，结果显示其在语义相似性任务中的表现不如GloVe基线，需进一步优化。

探讨RWKV在句子嵌入中的应用：逐层分析与基线比较语义相似性

BriefGPT - AI 论文速递 ·

个人知识管理中的语义相似性

DEV Community ·

教程：我们如何在PostgreSQL中直接构建反向视频搜索系统

DEV Community ·

通过代理混合检索提升您的RAG应用

The New Stack ·

本研究计算公开健康调查问题之间的语义相似性，以促进基于调查的个人生成健康数据（PGHD）的标准化。构建了包含1758对问题的语义文本相似性数据集，并采用SBERT-LaBSE算法进行比较，显示出其在提高跨语言调查数据语义互操作性方面的潜力。

Detecting Redundant Health Survey Questions Using Language-Agnostic BERT Sentence Embedding (LaBSE)

BriefGPT - AI 论文速递 ·

本研究提出HNCSE框架，通过混合困难负样本，提升无监督句子表示学习的效果。实验结果表明，该方法在语义文本相似性和迁移任务中表现优越，推动了对比学习的发展。

HNCSE: Advancing Sentence Embeddings via Hybrid Contrastive Learning with Hard Negatives

BriefGPT - AI 论文速递 ·

本研究针对现有NL2SQL基准在商业智能场景中的不足，提出了新的基准和问题类别，并引入两种语义相似性评估指标，以评估NL2SQL在实际应用中的能力。

商业智能场景下的NL2SQL服务评估基准

BriefGPT - AI 论文速递 ·

本文介绍了多种自然语言处理模型的对抗攻击方法，如TextFooler、BERT-Attack和RobEn，强调了这些方法在攻击成功率和模型鲁棒性方面的优势。研究表明，改进的BERT攻击框架通过引入投影梯度下降(PGD)显著提升了攻击效果，同时保持了对抗样本的语义相似性，增强了实际应用潜力。

统一多边际BERT用于稳健自然语言处理

BriefGPT - AI 论文速递 ·

向量嵌入详解：强大AI的初学者指南

The New Stack ·

本文研究了基于transformer的句子嵌入压缩技术，旨在分离语言信号，特别是主谓一致和谓词交替的信息。通过变分自编码器，发现潜在层的离散与连续组成部分能更好地捕捉目标现象。此外，提出了基于结构嵌入的句法树算法框架（SEST），以提高机器阅读理解的性能。研究还分析了不同编码器的句子嵌入效果及其在语义相似性和自然语言推理中的表现。

句子嵌入是否存在可识别的结构部分

BriefGPT - AI 论文速递 ·

本文介绍了一种名为AnyChange的零样本变化检测模型，该模型利用图像内部的语义相似性进行变化检测，显著提高了检测精度。在多个数据集上，尤其是在无监督和少量标注的情况下，该模型展现了强大的泛化能力和有效性。

零样本场景变化检测

BriefGPT - AI 论文速递 ·

本文提出了一种自监督训练框架，通过多模态聚类捕捉语义相似性，学习共同的多模态嵌入空间。该方法在文本到视频检索和时间动作定位等领域表现优异，超越了现有技术，并展示了在多个数据集上的最新成果。

非监督多模态聚类用于多模态话语中的语义发现

BriefGPT - AI 论文速递 ·

本文介绍了SHROOM模型，该模型在SemEval-2024中用于检测生成文本中的幻觉。通过微调预训练模型和集成方法，SHROOM在二元分类任务中取得了显著的准确率。研究探讨了生成文本与事实之间的语义相似性，并提出了新的无监督学习框架ESREAL，以减少视觉-语言模型的幻觉。此外，介绍了AutoHall方法和M-HalDetect数据集，以提高幻觉检测的性能。

SmurfCat 参加 SemEval-2024 任务 6：利用合成数据进行幻觉检测

BriefGPT - AI 论文速递 ·