小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
使用Transformers.js和句子嵌入构建语义搜索

本文介绍了如何使用Transformers.js和句子嵌入构建客户端语义搜索引擎,包括句子嵌入的工作原理、余弦相似度的计算、嵌入的生成与缓存,以及可重用的SemanticSearch类的创建。通过比较句子的语义而非关键词,语义搜索提高了搜索结果的相关性。

使用Transformers.js和句子嵌入构建语义搜索

MachineLearningMastery.com
MachineLearningMastery.com · 2026-06-05T12:00:01Z
使用LLM嵌入和元数据构建上下文感知的Python搜索

本文介绍了如何使用Python构建上下文感知的语义搜索引擎,结合嵌入式相似性和结构化元数据过滤。内容涵盖句子嵌入和余弦相似度的原理,构建元数据感知的搜索索引,以及索引的持久化方法。这些技术能够有效找到与用户查询相关的文档,同时考虑上下文约束。

使用LLM嵌入和元数据构建上下文感知的Python搜索

MachineLearningMastery.com
MachineLearningMastery.com · 2026-05-22T12:00:56Z
利用LLM嵌入构建语义搜索

本文介绍了如何利用句子嵌入和最近邻算法构建语义搜索引擎。与传统关键词搜索相比,语义搜索能够更好地捕捉文本的意义。文章提供了使用Python实现语义搜索的步骤,包括数据集加载、嵌入生成和最近邻搜索,最终展示了如何根据查询返回相似文档。

利用LLM嵌入构建语义搜索

MachineLearningMastery.com
MachineLearningMastery.com · 2026-03-02T13:37:01Z
为什么以及何时使用句子嵌入而非词嵌入

句子嵌入和词嵌入在自然语言处理中的应用各有不同。句子嵌入适合整体语义理解,常用于语义搜索和文本分类;词嵌入则适合细粒度分析,如命名实体识别和词性标注。选择合适的嵌入方式取决于具体任务需求。

为什么以及何时使用句子嵌入而非词嵌入

MachineLearningMastery.com
MachineLearningMastery.com · 2025-09-26T12:00:21Z
DeepResearch中多样化查询生成的次模优化

在DeepResearch中,生成多样化查询至关重要。本文探讨了利用句子嵌入和次模优化的方法,以根据用户输入生成网络搜索查询,并将原问题分解为子问题,强调相关性和多样性的重要性,提出了两种优化策略。

DeepResearch中多样化查询生成的次模优化

Jina AI
Jina AI · 2025-07-04T03:36:02Z
超越单词:掌握句子嵌入在语义自然语言处理中的应用

句子嵌入是自然语言处理中的重要技术,能够捕捉句子的整体意义,超越单词分析。它在语义搜索、文档聚类和问题回答等任务中发挥关键作用,通过聚合上下文词嵌入,提供更丰富的语义表示,推动智能应用的发展。

超越单词:掌握句子嵌入在语义自然语言处理中的应用

DEV Community
DEV Community · 2025-03-19T20:30:00Z

本研究提出了一种新的无监督对比学习框架TNCSE,解决了句子嵌入中仅考虑方向而忽视模长特征的问题。通过约束正样本的模长特征,优化了无监督学习,实验证明其在语义文本相似性任务中表现优异。

TNCSE: Norm Constraints of Tensors for Unsupervised Contrastive Learning of Sentence Embeddings

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究评估RWKV语言模型在零样本条件下生成句子嵌入的效果,结果显示其在语义相似性任务中的表现不如GloVe基线,需进一步优化。

探讨RWKV在句子嵌入中的应用:逐层分析与基线比较语义相似性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z
Meta开源大型概念模型,一种能够预测完整句子的语言模型

Meta最近开源了大型概念模型(LCM),该模型在更高抽象层次上操作,使用独立于语言和模态的句子嵌入空间。LCM在多语言摘要任务中优于同规模的Llama 3.1模型,支持200种语言的文本和76种语言的语音数据,旨在更好地模拟人类的抽象推理能力,并在长文本摘要任务中表现出色。

Meta开源大型概念模型,一种能够预测完整句子的语言模型

InfoQ
InfoQ · 2025-01-28T14:00:00Z

本研究提出了一种结合伪标记生成与模型集成的框架,以提升自然语言处理中的句子嵌入性能。实验结果表明,该方法在准确率和F1-score上显著优于基线模型,验证了跨注意力机制和数据增强的有效性。

Optimizing Sentence Embeddings with Pseudo-Labeling and Model Ensembling: A Hierarchical Framework for Enhancing NLP Tasks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-27T00:00:00Z

本研究针对CoMeDi共享任务的分歧排名子任务,提出了一种新方法,利用paraphrase-xlm-r-multilingual-v1模型生成的句子嵌入和深度神经回归模型。优化后的系统在Spearman相关性表现上达到了竞争性水平,强调了在多语言环境中处理判断差异的重要性。

FuocChuVIP123在CoMeDi共享任务中的表现:利用XLM-Roberta句子嵌入和深度神经回归进行分歧排名

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-21T00:00:00Z
基于症状的诊断系统构建:使用all-MiniLM-L6-V2

小语言模型(SLMs)是一种高效的神经网络,适用于情感分析和嵌入生成。MiniLM是微软开发的高效模型,all-MiniLM-L6-v2专门优化用于句子嵌入。本文探讨SLMs在基于症状的诊断系统中的应用,通过生成嵌入识别疾病并推荐治疗方案。

基于症状的诊断系统构建:使用all-MiniLM-L6-V2

DEV Community
DEV Community · 2024-12-16T09:02:18Z

本研究解决了大型语言模型提取句子嵌入时的编码偏差问题,提出的令牌预处理技术显著提高了嵌入的准确性,实验结果表明性能提升明显且无额外推理成本。

Token Preprocessing: A Training-Free Strategy to Enhance Sentence Embeddings from Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本文提出了一种利用生成文本模型进行数据增强的方法,以提升句子嵌入效果。该方法无需访问模型参数,实验结果表明,低基线性能的嵌入模型经过增强后显著提升,增强了语义多样性和鲁棒性。

生成增强句子编码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z
基于LLM模型的RAG应用开发逐步指南 - 第三部分 - 上下文搜索与注入

本文介绍了基于LLM模型的RAG应用开发,重点在于通过向量搜索找到合适的上下文。使用句子嵌入生成问题向量,并通过相似度查询获取相关文档。上下文注入显著提升了模型回答质量,强调了开发细节和验证结果的重要性。

基于LLM模型的RAG应用开发逐步指南 - 第三部分 - 上下文搜索与注入

DEV Community
DEV Community · 2024-10-24T18:29:38Z

本文探讨了多语言句子表示的研究,介绍了多种探针任务和编码器训练方法。研究发现,不同语言的句子嵌入在保留语言信息方面表现不同,跨语言映射效果优于基于英文的编码器。此外,提出了利用合成数据集提升多语言句子表示质量的新方法,强调了语言特定差异和模型可解释性。

通过多任务探索意大利语句嵌入性质

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z

本文介绍了多种基于BERT的句子嵌入方法,如SBERT、SBERT-WK和BERT-flow,展示了它们在语义文本相似度任务中的优越性能。研究表明,ALBERT在某些任务上优于BERT,而T5模型在句子嵌入方面也取得了进展。此外,提出的对比学习框架有效利用了未标注文本的编码。

从预训练变换模型中提取句子嵌入

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-15T00:00:00Z

本文提出了一种结合句子嵌入和生成过程模型的主题建模算法,利用大型语言模型(LLMs)解决短文本主题推断的挑战。研究表明,该方法在多个数据集上表现优异,能够识别更连贯的主题,减少虚构主题的产生,并提高主题提取质量,消除手动调整的需求。

使用细调 LLMs 和句袋模型进行主题建模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-06T00:00:00Z

本文探讨了基于转换模型的句子嵌入如何编码语言信息,分析了不同模型在语法、语义和推理任务中的表现。研究发现,模型的早期层主要编码成分关系信息,并提出了一个新的数据集以支持政府关系的研究。此外,通过信息理论分析,识别了学习阶段和任务间共享信息的关键点,对模型可解释性和多任务学习具有重要意义。

通过目标稀疏化追踪基于 Transformer 的句子嵌入中的语言信息

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z

本文介绍了一种基于自注意力机制的句子嵌入模型,提升了可解释性并在多个任务中表现优异。研究提出了结合不同机制的新架构,如OTCE和Anthe,以提高性能和降低内存成本。同时,探索了长序列数据中的依赖性,提出了CHELA和SMA机制,解决了注意力复杂性问题,并展示了在多种任务中的有效性。

Cheems: 出色矩阵更高效和更有效的架构

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码