小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
针对非结构化文本数据的三种特征工程技术

本文介绍了将原始文本转换为机器学习模型可用的数值特征的方法,包括TF-IDF、GloVe词嵌入和基于变换器的嵌入。TF-IDF通过词频和文档频率突出文档独特性;GloVe通过词向量捕捉语义;变换器模型(如BERT)提供上下文感知的表示。选择方法需根据具体需求和资源限制。

针对非结构化文本数据的三种特征工程技术

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-12T16:09:37Z
文本数据的七种特征工程技巧

本文介绍了七种文本特征工程技巧,以帮助机器学习和深度学习模型处理文本。这些技巧包括去除停用词、词干提取、词袋模型、TF-IDF、n-grams、清洗和标记化,以及词嵌入,旨在将原始文本转化为机器可读的数值特征。

文本数据的七种特征工程技巧

MachineLearningMastery.com
MachineLearningMastery.com · 2025-10-16T15:24:51Z
如何窥探本地大型语言模型的内部运作

本文教程指导用户在本地运行开源大型语言模型(LLMs),提取和可视化隐藏激活,探索情感、类比和偏见。用户将学习如何使用Python处理文本、比较句子和分析词嵌入,以帮助理解LLMs的意义表示。

如何窥探本地大型语言模型的内部运作

freeCodeCamp.org
freeCodeCamp.org · 2025-10-02T14:40:10Z
为什么以及何时使用句子嵌入而非词嵌入

句子嵌入和词嵌入在自然语言处理中的应用各有不同。句子嵌入适合整体语义理解,常用于语义搜索和文本分类;词嵌入则适合细粒度分析,如命名实体识别和词性标注。选择合适的嵌入方式取决于具体任务需求。

为什么以及何时使用句子嵌入而非词嵌入

MachineLearningMastery.com
MachineLearningMastery.com · 2025-09-26T12:00:21Z
词袋模型的工作原理 – 语言模型的基础

现代人工智能的基础是词袋模型,它将文本转换为数字,便于计算机处理。尽管词袋模型忽略了语义和上下文,但为自然语言处理奠定了基础,并启发了更先进的模型,如TF-IDF和词嵌入。

词袋模型的工作原理 – 语言模型的基础

freeCodeCamp.org
freeCodeCamp.org · 2025-08-25T13:18:00Z
表格数据特征工程中的词嵌入

文章探讨了如何将词嵌入技术应用于表格数据的特征工程。传统的分类特征处理方法无法捕捉类别之间的语义相似性,而词嵌入通过将相似意义的词映射为相近的向量,提升模型性能。使用预训练的Word2Vec模型,可以将描述性文本转换为数值特征,从而改善机器学习模型的表现。此方法适用于任何包含有意义文本的分类列。

表格数据特征工程中的词嵌入

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-11T12:00:16Z
语言模型中的词嵌入

本文介绍了词嵌入在自然语言处理中的重要性,词嵌入将词表示为密集向量,使语义相似的词在向量空间中靠近。主要模型包括Word2Vec、GloVe和FastText,Word2Vec通过上下文预测词,GloVe通过词共现矩阵生成嵌入。现代语言模型如BERT利用这些嵌入捕捉词之间的语义关系。文章还提供了使用Gensim和PyTorch训练自定义词嵌入的示例。

语言模型中的词嵌入

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-02T04:06:23Z
词嵌入与文本向量化的温和介绍

文章介绍了词嵌入和文本向量化的基本概念,强调计算机如何通过数字表示理解人类语言。文本向量化将文本转换为机器可处理的数字形式,常见方法包括独热编码、词袋模型和TF-IDF。词嵌入通过学习低维表示捕捉词语之间的语义关系。现代上下文嵌入模型如ELMo和BERT,能够根据上下文动态生成词向量,提高自然语言处理的准确性和效率。

词嵌入与文本向量化的温和介绍

MachineLearningMastery.com
MachineLearningMastery.com · 2025-05-23T13:59:44Z

本研究提出了一种快速方法,通过结合相邻标记嵌入来优化预训练的静态词嵌入,有效解决词汇缺失问题,增强特定领域应用的多样性,并改善风暴相关术语的表示效果。

Self-Improving Token Embeddings

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z

本文提出了一种基于双向LSTM/CRF的模型,解决了不同语言命名实体识别中的模型依赖性问题。该模型通过正交线性变换将目标语言的词嵌入转化为源语言的词嵌入,有效识别阿拉伯语命名实体。

Language-Independent Named Entity Recognition through Orthogonal Transformation of Word Vectors

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z
从词语到向量:词嵌入的温和入门

计算机通过词嵌入技术理解人类语言,将词转换为数字向量,从而捕捉语义和上下文关系。Word2Vec、GloVe和FastText等词嵌入方法推动了人工智能在语言理解方面的进步。

从词语到向量:词嵌入的温和入门

DEV Community
DEV Community · 2025-03-17T20:30:00Z

本文介绍了Embedding技术在自然语言处理中的应用与发展。Embedding通过向量表示对象,已从Word Embedding扩展到多种形式,如Item和Graph,提升了机器学习和深度学习的效率。动态词嵌入模型如BERT和GPT解决了一词多义问题,推动了NLP性能的提升。

大模型背后的向量魔法:Embedding技术初探 - 程序设计实验室

程序设计实验室
程序设计实验室 · 2025-02-07T09:22:00Z

本研究分析多语言模型在低资源语言中的知识转移表现,探讨多语言词嵌入的一致性及模型结构,揭示其优势与局限,以促进自然语言处理技术的包容性发展。

多语言语言模型如何处理多种语言?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-06T00:00:00Z

本研究提出了一种新方法Comply,解决了生物启发神经网络在词嵌入学习中的不足。通过引入复杂权重的位置信息,单层神经网络能够有效学习序列表示,实验结果表明其性能超越FlyVec,并与更大规模模型相当。

Comply: A Complex Weight Learning Approach for Sentences Inspired by Drosophila Olfaction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本研究提出了一种基于参数化量子电路的复杂值词嵌入训练方法,性能与经典Skip-gram相当,且能有效扩展至大规模词汇,为量子自然语言处理开辟新方向。

Learning Complex Word Embeddings in Classical and Quantum Spaces

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z
第9部分:构建自己的人工智能 - 自然语言处理(NLP)用于语言理解

自然语言处理(NLP)是人工智能的重要领域,使机器能够理解和生成语言。文章介绍了NLP的基本概念,如文本预处理、词嵌入和模型构建,主要任务包括文本分类、机器翻译和文本摘要。现代NLP模型如BERT和GPT显著提升了理解能力,广泛应用于医疗、客服和内容创作等领域。

第9部分:构建自己的人工智能 - 自然语言处理(NLP)用于语言理解

DEV Community
DEV Community · 2024-12-14T09:05:23Z

本研究探讨了传统关键词方法在社会工作文本分析中的局限,提出词嵌入作为创新方法,能够更有效地捕捉文本的意义和关系,提升研究效率,揭示复杂数据模式,从而改善社会工作服务和干预效果。

词嵌入入门:用于社会工作文本分析的人工智能技术

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z
大型语言模型的关键:词嵌入的数学理解

词嵌入将文本转为数值向量,便于计算机处理。Word2Vec是常用算法,通过神经网络捕捉词语间语义关系,包含CBOW和Skip-gram两种架构。它提升了情感分析和文档聚类等任务的性能,并支持跨语言应用。研究仍在继续以改进词语表示。

大型语言模型的关键:词嵌入的数学理解

KDnuggets
KDnuggets · 2024-10-15T14:00:13Z

本文介绍了一种生成模型,通过结构化正则先验联合学习源和目标模型参数,解决跨语言迁移问题。利用可逆投影学习公共嵌入空间,提升跨语言词嵌入效果。在英语为源的依赖树库上评估,对10种语言的词性标注和依赖分析分别提升5.2%和8.3%。

解构新加坡英语的言语颗粒与任务驱动表示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本研究提出了增强型推荐模型ELMRec,解决了现有推荐系统在用户与项目高阶交互建模上的不足。通过增强词嵌入和引入重新排序方案,ELMRec在直接推荐和序列推荐中表现优于现有方法。

Enhancing Higher-Order Interaction Awareness in Large Language Model-Based Recommendation Systems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码