小红花·文摘

自然语言处理（NLP）近年来因大型语言模型（LLMs）的应用而发生显著变化，但文本预处理仍然至关重要。文章介绍了三种使用NLTK进行有效文本预处理的方法：1）使用MWETokenizer保留多词表达的完整性；2）通过词性标注实现上下文感知的词形还原；3）利用统计方法提取关键短语。这些技术有助于提高NLP模型的准确性和鲁棒性。

三种NLTK技巧用于高级文本预处理与语言分析

KDnuggets ·

如何为机器学习预处理医疗影像——以胸部X光为例的指南

freeCodeCamp.org ·

vLLM的Rust前端PR了，预处理吞吐量直接翻了5倍！

迷途小书童 ·

从混乱到整洁：8个轻松的数据预处理Python技巧

KDnuggets ·

您的机器学习管道效率是否达到最佳？

KDnuggets ·

《数据采集与预处理（第2版）》教材在Linux系统下进行实验，解决了Windows系统的管理员权限问题。作者提供了在Windows系统下开展实验的指南，强调两者代码相同，使用Python 3.10.12。

林子雨编著《数据采集与预处理（第2版）》教材在Windows系统下实验方法

厦大数据库实验室博客 ·

等离子预处理与去氧化技术协同应用，革新功率模块生产

全球TMT-美通国际 ·

文本到视频模型的训练数据预处理

InfoQ ·

尼古拉·萨莫赫瓦洛夫：#PostgresMarathon 2-008：LWLock：锁管理器与预处理语句

Planet PostgreSQL ·

本研究解决了机器学习模型中存在的公平性问题，特别是在可能导致严重社会后果的高风险领域。我们提出了一种新的预处理框架FairSHAP，利用Shapley值归因来识别和修改训练数据中的公平性关键实例，从而在减少歧视风险的同时保持数据完整性和模型准确性。研究表明，FairSHAP显著改善了各类表格数据集中的人口平等和机会平等，实现了公平性提升并在某些情况下提升了预测性能。

FairSHAP：通过基于归因的数据增强实现公平性的预处理

BriefGPT - AI 论文速递 ·

初学者理解机器学习中的数据预处理

DEV Community ·

本研究提出了RusBEIR，这是一个针对俄语的信息检索模型基准，强调了预处理的重要性。验证了BM25作为强基线，神经模型在大多数数据集上表现优越，但在长文档检索中受限于输入大小。RusBEIR为俄语信息检索研究提供了统一框架。

建立俄罗斯基准以评估信息检索模型

BriefGPT - AI 论文速递 ·

数据预处理的常见技术有哪些？

DEV Community ·

本研究解决了专业领域分词器开发不足的问题，提出了针对法律、金融和政府文本的领域特定BPE分词器，具有更高的效率，使用的标记数量比现有的GPT-4o和Llama3减少了9-17%。此外，字符级BPE分词器在文本纠正任务中表现出色，保持了错误文本和正确文本之间的一致标记边界，显著提升了处理长篇法律和金融文件的性能和效率。