小红花·文摘 - 小红花技术领袖俱乐部

本文讨论了BM25算法在全文检索中的应用，分析了其公式、参数及与TF-IDF的区别。BM25通过饱和TF和长度归一解决了传统TF在长文档中的失效问题，并提及了Lucene和Elasticsearch的实现细节，强调了BM25在召回和可解释性方面的重要性。此外，文章探讨了BM25与学习排序的关系及其在实际应用中的工程边界。

【全文检索引擎】BM25 与 Similarity：公式如何落到 Lucene

土法炼钢兴趣小组的博客 ·

Scikit-LLM与传统文本分类器的比较：何时应使用LLM？

Scikit-LLM与传统文本分类器的比较：何时应使用LLM？

MachineLearningMastery.com ·

使用Scikit-LLM进行文本摘要

使用Scikit-LLM进行文本摘要

MachineLearningMastery.com ·

如何在一个Scikit-learn管道中结合LLM嵌入、TF-IDF和元数据

如何在一个Scikit-learn管道中结合LLM嵌入、TF-IDF和元数据

MachineLearningMastery.com ·

LLM嵌入与TF-IDF与词袋模型：在Scikit-learn中哪种效果更好？

LLM嵌入与TF-IDF与词袋模型：在Scikit-learn中哪种效果更好？

MachineLearningMastery.com ·

针对非结构化文本数据的三种特征工程技术

针对非结构化文本数据的三种特征工程技术

MachineLearningMastery.com ·

词袋模型的工作原理 – 语言模型的基础

词袋模型的工作原理 – 语言模型的基础

freeCodeCamp.org ·

使用决策树理解文本

使用决策树理解文本

MachineLearningMastery.com ·

过去五周专注于Zeno项目，进行了代码重构、日志彩色化和CSS解析器的引入。同时，利用TF-IDF分类器识别并标记了xLog上的垃圾文章账号，并改善了GitHub页面的存档效果，增加了存档功能。

STWP 2025 第 20-25 周合并周报

Save The Web Project ·

基于Flask构建非生成式AI客服聊天机器人

基于Flask构建非生成式AI客服聊天机器人

DEV Community ·

基于动态三元组图嵌入的上下文敏感语义推理

基于动态三元组图嵌入的上下文敏感语义推理

DEV Community ·

使用TF-IDF和逻辑回归进行垃圾邮件检测

使用TF-IDF和逻辑回归进行垃圾邮件检测

DEV Community ·

为RAG实现上下文检索

为RAG实现上下文检索

DEV Community ·

在PHP和PostgreSQL中使用TF-IDF向量

在PHP和PostgreSQL中使用TF-IDF向量

DEV Community ·

本文介绍了Enron-Spam数据集在垃圾邮件识别中的应用。通过特征提取、TF-IDF模型和朴素贝叶斯分类器，最终实现了98.1%的准确率。进一步应用CNN模型，识别准确率提升至99%。

CNN之垃圾邮件识别

FreeBuf网络安全行业门户 ·

本文介绍了Enron-Spam数据集在垃圾邮件识别中的应用。通过特征提取、TF-IDF模型和朴素贝叶斯分类器，最终实现了98.1%的准确率。还探讨了CNN模型的应用，进一步将识别准确率提高至99%。

CNN之垃圾邮件识别

FreeBuf网络安全行业门户 ·

本研究提出了一种结合TF-IDF和BERT嵌入的加权集成方法，以提高马拉地语的抄袭检测准确性，能够有效捕捉文本的统计、语义和句法特征，具有良好的实际应用潜力。

Enhancing Plagiarism Detection in Marathi with a Weighted Ensemble of TF-IDF and BERT Embeddings

BriefGPT - AI 论文速递 ·

本研究提出了一种快速跨数据集剪枝（SCDP）方法，旨在提高自然语言理解中的微调效率。该方法利用TF-IDF嵌入和几何中位数评估样本重要性，并根据数据集大小进行适应性剪枝，从而显著减少计算资源消耗。实验结果表明，该方法在多种任务和数据集上表现优异。

快速跨数据集剪枝：提高自然语言理解中的微调效率

BriefGPT - AI 论文速递 ·

本研究评估了不同文本领域中文档相似性评分的性能，比较了TF-IDF、Word2Vec和BERT嵌入的优缺点。结果显示，TF-IDF依赖于词汇重叠，Word2Vec在跨领域比较中表现优越，而BERT在复杂领域的表现较差，可能是由于缺乏微调。

莎士比亚十四行诗与泰勒·斯威夫特歌词的文档级嵌入方法的比较分析

BriefGPT - AI 论文速递 ·

本研究比较了MeCab、Sudachi和SentencePiece在日本文本情感分类中的表现。结果表明，Sudachi生成的词元最符合词典定义，而SentencePiece结合TF-IDF和逻辑回归的分类效果最佳。

Experimental Evaluation of Japanese Tokenizers in Sentiment Text Classification

BriefGPT - AI 论文速递 ·