小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
7种利用大型语言模型(LLM)嵌入进行高级特征工程的技巧

本文介绍了七种利用大型语言模型(LLM)嵌入进行高级特征工程的技巧,包括计算语义相似性、降维和去噪、使用聚类标签和距离、文本差异嵌入、嵌入白化、句子与词级嵌入聚合,以及将嵌入作为特征合成的输入。这些方法可以将通用嵌入转化为特定任务的高信号特征,从而提升模型性能。

7种利用大型语言模型(LLM)嵌入进行高级特征工程的技巧

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-03T15:26:42Z

Semantic Kernel的Memory系统模拟人类记忆,分为语义记忆和短期记忆,支持信息存储与检索。通过向量存储和嵌入技术,AI能够基于语义相似性进行智能决策,从而提升对话体验和生成能力。

Semantic Kernel内存管理系统——为AI注入持久记忆与上下文感知能力

dotNET跨平台
dotNET跨平台 · 2026-01-22T00:01:42Z
本地Atlas和Ollama的MongoDB向量搜索索引

本文介绍了如何在本地MongoDB环境中利用Ollama和欧洲歌唱大赛歌词数据集实现基于语义相似性的向量搜索。通过将歌词嵌入文档并创建向量搜索索引,用户能够检索相关歌曲。

本地Atlas和Ollama的MongoDB向量搜索索引

DEV Community
DEV Community · 2025-03-26T19:13:41Z

本研究提出了一种新的无监督对比学习框架TNCSE,解决了句子嵌入中仅考虑方向而忽视模长特征的问题。通过约束正样本的模长特征,优化了无监督学习,实验证明其在语义文本相似性任务中表现优异。

TNCSE: Norm Constraints of Tensors for Unsupervised Contrastive Learning of Sentence Embeddings

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

该研究提出了一种通用闭环预测编码框架,用于建模听觉工作记忆,填补了神经网络领域的研究空白。评估结果表明,该框架在环境声音和语音数据集上具有高语义相似性,展现出重要的应用潜力。

A General Closed-Loop Predictive Coding Framework for Auditory Working Memory

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-16T00:00:00Z

本研究评估RWKV语言模型在零样本条件下生成句子嵌入的效果,结果显示其在语义相似性任务中的表现不如GloVe基线,需进一步优化。

探讨RWKV在句子嵌入中的应用:逐层分析与基线比较语义相似性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z
个人知识管理中的语义相似性

在数字时代,传统关键词搜索存在局限。为此,我开发了名为Cipher的工具,通过语义相似性组织和分析笔记,帮助更好地管理个人知识。

个人知识管理中的语义相似性

DEV Community
DEV Community · 2025-02-02T01:23:58Z
教程:我们如何在PostgreSQL中直接构建反向视频搜索系统

本文介绍了如何使用Mixpeek和Timescale Cloud构建反向视频搜索系统。该系统利用PostgreSQL作为向量数据库,支持基于语义相似性的文本和视频查询。视频被分割成块并生成向量嵌入,存储在数据库中。用户提交查询后,系统通过向量相似性搜索返回相关视频片段。

教程:我们如何在PostgreSQL中直接构建反向视频搜索系统

DEV Community
DEV Community · 2025-01-14T13:11:48Z
通过代理混合检索提升您的RAG应用

在构建检索增强生成(RAG)应用时,传统的语义相似性检索常常返回无关文档。为了解决这一问题,采用“代理混合检索”方法,通过结构化元数据和大型语言模型(LLM)智能选择检索策略,从而提高检索的准确性和响应质量。这种方法使RAG应用能够更好地处理复杂查询,增强用户信任和系统灵活性。

通过代理混合检索提升您的RAG应用

The New Stack
The New Stack · 2024-12-17T14:39:20Z

本研究计算公开健康调查问题之间的语义相似性,以促进基于调查的个人生成健康数据(PGHD)的标准化。构建了包含1758对问题的语义文本相似性数据集,并采用SBERT-LaBSE算法进行比较,显示出其在提高跨语言调查数据语义互操作性方面的潜力。

Detecting Redundant Health Survey Questions Using Language-Agnostic BERT Sentence Embedding (LaBSE)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究提出HNCSE框架,通过混合困难负样本,提升无监督句子表示学习的效果。实验结果表明,该方法在语义文本相似性和迁移任务中表现优越,推动了对比学习的发展。

HNCSE: Advancing Sentence Embeddings via Hybrid Contrastive Learning with Hard Negatives

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究针对现有NL2SQL基准在商业智能场景中的不足,提出了新的基准和问题类别,并引入两种语义相似性评估指标,以评估NL2SQL在实际应用中的能力。

商业智能场景下的NL2SQL服务评估基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z
向量嵌入详解:强大AI的初学者指南

向量嵌入是高维空间中的数据表示,便于搜索非结构化数据。Milvus和Zilliz Cloud等向量数据库用于存储和管理嵌入,支持大型语言模型的语义相似性搜索。嵌入有密集、稀疏和二进制三种类型。Milvus是开源数据库,支持大规模向量数据的存储和检索,应用于相似性搜索、推荐系统等。

向量嵌入详解:强大AI的初学者指南

The New Stack
The New Stack · 2024-09-26T17:30:27Z

本研究提出了一种新的示例选择方法——推理图增强示例检索(RGER),通过图核选择具有语义和结构相似性的示例,显著提高了大语言模型的性能。

基于推理图增强的语境学习样本检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

介绍了一种名为AnyChange的新变化检测模型,通过训练无关的自适应方法,在零样本预测和泛化的情况下支持不同类型和数据分布的变化检测。通过揭示和利用图像内部及图像间的语义相似性,实现了零样本变化检测能力。同时,提出了一种点查询机制,使得具备了零样本目标中心变化检测的能力。实验证明AnyChange在零样本变化检测方面有效,并在SECOND基准测试中取得了令人瞩目的成绩。

零样本场景变化检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

该研究提出了一种基于多模态语义信息传输的图像传输方法,通过提取多模态语义信息并传输,接收方使用图像生成模型生成多张图像,并根据语义相似性进行选择。研究表明该方法可促进通过移动网络进行照片传输与利用。

资源有限网络中基于多模态相似度估计的图像生成语义传播

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-17T00:00:00Z

通过对不同模型的嵌入进行内部评估,揭示了涉及未登录词的语义相似性任务中,被分割的词的表示质量通常较差,但并非总是如此。需要谨慎解释它们的相似性值。

词切分对上下文化词表示的语义内容的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-22T00:00:00Z

本研究提供了一个新的词级孟加拉手语数据集(BdSL40),包含 611 个单词的 40 个视频,以及两种不同的分类方法。研究揭示了 BdSL、西孟加拉手语和印度手语之间的词汇和语义相似性,以及对 BdSL 缺乏词级数据集的情况。数据集和源代码已发布以促进进一步研究。

BdSLW60: 一个词汇级别的孟加拉手语数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-13T00:00:00Z

本研究提供了一个新的词级孟加拉手语数据集(BdSL40),包含 611 个单词的 40 个视频,以及两种不同的分类方法。研究揭示了 BdSL、西孟加拉手语和印度手语之间的词汇和语义相似性,以及对 BdSL 缺乏词级数据集的情况。数据集和源代码已发布以促进进一步研究。

连接节点:利用时空图神经网络进行准确的孟加拉手语识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-22T00:00:00Z

本文比较了双编码器和交叉编码器的差异,双编码器适合搜索,速度快且可扩展性强,交叉编码器适合分类和高精度排名,更准确。双编码器独立编码每个句子,将输入文本编码为固定长度向量,而交叉编码器同时对两个句子进行编码,能捕获句子之间的关系。在实践中,可以先使用双编码器减少候选数量,再使用交叉编码器获取最终结果。交叉编码器可用于语义相似性任务。通过两阶段检索和重新排序系统,可以在实践中使用双编码器和交叉编码器。

什么是句子嵌入、交叉编码器和重新排名

极道
极道 · 2024-01-21T22:31:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码