小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
上下文向量的进一步应用

本文介绍了如何利用上下文向量构建实际应用,包括语义搜索引擎、文档聚类和文档分类系统。上下文向量由变换器模型生成,能够捕捉单词在特定上下文中的含义。通过使用Hugging Face库,用户可以实现这些应用,提升文本处理能力。

上下文向量的进一步应用

MachineLearningMastery.com
MachineLearningMastery.com · 2025-04-18T18:17:56Z

本研究提出了一种细致的文档分类方法和ACoRN模型,解决了RAG中因文档噪声导致的重要信息缺失问题,提升了T5-large模型的准确性和答案保留能力。

ACoRN: Robust Abstract Compression Against Noise in Retrieval-Augmented Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究探讨了负采样在无监督主题建模中的应用,比较了多种神经主题模型的负采样策略,并验证了其在多个数据集上的有效性。结果表明,负采样显著提高了主题的一致性、多样性和文档分类的准确性。

Evaluating Negative Sampling Methods in Neural Topic Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

Vectorize是一个基于Cloudflare开发平台的分布式向量数据库,旨在加速AI应用开发。它支持高维向量的快速查询,适用于语义搜索、文档分类和推荐系统。通过IVF索引和PQ压缩技术,Vectorize提高了查询效率和准确性,并确保数据一致性和版本控制,能够处理高达500万向量,适合大规模应用。

在Cloudflare开发平台上构建Vectorize:一个分布式向量数据库

The Cloudflare Blog
The Cloudflare Blog · 2024-10-22T13:00:00Z

本研究提出了一种基于Kullback-Leibler散度的正交非负矩阵分解(ONMF)模型和算法,克服了传统弗罗贝nius范数的局限性。该方法在文档分类和超光谱图像解混合中表现优越,特别适用于处理泊松分布的数据。

Orthogonal Nonnegative Matrix Factorization with Kullback-Leibler Divergence

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本文探讨了多种神经主题建模方法,包括维基百科标签、嵌入式主题模型(ETM)和基于聚类的主题建模,旨在提高主题模型的准确性和一致性。这些方法在处理复杂文本和生成可解释主题方面表现优异,尤其在文档分类和主题连贯性上优于传统模型。

通过维基化增强的嵌入主题模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

本研究应用自然语言处理技术分析能源相关科学文章,提取信息并发现知识。使用无监督模型(如LDA、Word2Vec和Transformer)开发文档分类方法,以加速能源研究和材料开发。同时探讨了NLP在电子病历和发展中国家财务数据处理中的应用,展示了模型的准确率和优化建议。

使用集成数据清理方法开发高效语料库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-02T00:00:00Z

本文探讨了文档布局分析(DLA),介绍了基于图的布局分析模型(GLAM)和双流视觉格点变换器(VGT)。研究表明,这些模型在文档分类和对象检测中表现优异,尤其在处理复杂文档时,准确率可达99%。此外,提出了稳健性测试和新数据集,以提升模型的实际应用效果。

DLAFormer:文档布局分析的端到端 Transformer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-20T00:00:00Z

本文探讨了多种文本摘要和数据增强方法,包括基于摘要的语言模型、半监督学习和情感分析。这些方法能有效提高文本理解、输出质量和鲁棒性,尤其在文档分类和意见摘要任务中表现优异。

大、小或两者皆用:一种基于语言模型的新型数据增强框架用于去偏见化观点摘要

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-12T00:00:00Z

本文介绍了一种名为KoBigBird-large的大规模韩语BigBird模型,采用作者提出的TAPER编码,能够在韩语语言理解方面实现领先水平并处理长序列。实验证明,该模型在韩语语言理解基准测试中表现出类似的领先水平,并在长序列上的文档分类和问题回答任务中展现了更好的性能。

韩 Bird 大型:基于 Transformer 的韩语语言理解转换

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-19T00:00:00Z

本文强调将文档分类基准测试更贴近实际应用的需求,包括数据性质和分类任务。实证研究表明当前基准测试已不再相关,需要更新以评估完整文档。呼吁采用更成熟的评估方法,提出具体建议的希望之声作为结束。

超越文档页面分类:设计、数据集和挑战

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-24T00:00:00Z
【4.0】基于概率论的分类方法:朴素贝叶斯

本文介绍了朴素贝叶斯分类算法的原理、应用和代码示例,包括贝叶斯决策理论、条件概率、优点、适用数据类型、文档分类和垃圾邮件过滤。

【4.0】基于概率论的分类方法:朴素贝叶斯

Seraphineの小窝
Seraphineの小窝 · 2023-07-15T15:10:22Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码