小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
如何为机器学习预处理医疗影像——以胸部X光为例的指南

本文讨论了胸部X光影像数据集的预处理重要性,介绍了六个核心步骤:数据验证、缩放、归一化、关注区域引导、处理缺失数据和去噪。强调不当预处理可能导致模型性能下降,并提供了完整的预处理管道示例,以帮助读者有效准备医疗影像数据进行机器学习。

如何为机器学习预处理医疗影像——以胸部X光为例的指南

freeCodeCamp.org
freeCodeCamp.org · 2026-06-04T17:13:59Z
vLLM的Rust前端PR了,预处理吞吐量直接翻了5倍!

在新加坡的 PyTorch 会议上,Bugen Zhao 介绍了 vLLM 团队用 Rust 重写 Python 前端的工作,以解决高并发下的性能瓶颈。Rust 前端的吞吐量提升约 5.16 倍,CPU 占用降低,长尾延迟收敛,用户无需额外操作,Rust 二进制文件已打包进 Python Wheel,支持主要 API。

vLLM的Rust前端PR了,预处理吞吐量直接翻了5倍!

迷途小书童
迷途小书童 · 2026-05-31T10:37:43Z
从混乱到整洁:8个轻松的数据预处理Python技巧

数据预处理在数据科学中至关重要,但常因复杂和耗时而被忽视。本文介绍了8个Python技巧,帮助用户轻松清理和标准化数据,包括列名规范化、去除空格、数值转换、处理缺失值、类别标准化、去重和剪裁异常值,从而提升数据处理效率。

从混乱到整洁:8个轻松的数据预处理Python技巧

KDnuggets
KDnuggets · 2026-02-18T15:00:01Z
您的机器学习管道效率是否达到最佳?

优化机器学习管道的效率至关重要。通过解决数据输入瓶颈、减少预处理时间、合理配置计算资源、提高评估速度和解决推理限制,可以显著缩短迭代时间,提升团队生产力。

您的机器学习管道效率是否达到最佳?

KDnuggets
KDnuggets · 2026-02-06T13:00:06Z

《数据采集与预处理(第2版)》教材在Linux系统下进行实验,解决了Windows系统的管理员权限问题。作者提供了在Windows系统下开展实验的指南,强调两者代码相同,使用Python 3.10.12。

林子雨编著《数据采集与预处理(第2版)》教材在Windows系统下实验方法

厦大数据库实验室博客
厦大数据库实验室博客 · 2026-02-04T09:31:59Z
等离子预处理与去氧化技术协同应用,革新功率模块生产

随着高性能功率电子器件需求的增加,制造商面临工艺挑战。等离子预处理与REDOX-Tool去氧化技术的结合,提高了模块的可靠性和质量,降低了缺陷率,成为新一代功率模块制造的关键技术。

等离子预处理与去氧化技术协同应用,革新功率模块生产

全球TMT-美通国际
全球TMT-美通国际 · 2025-11-13T02:47:55Z
文本到视频模型的训练数据预处理

文本到视频模型(如Runway、Sora等)依赖高质量的视频-文本数据集。数据预处理包括场景分割、视频标注和过滤,以确保生成内容的质量。随着生成AI服务的兴起,企业逐渐采用此技术以降低视频制作成本,提高效率。

文本到视频模型的训练数据预处理

InfoQ
InfoQ · 2025-11-06T09:00:00Z
尼古拉·萨莫赫瓦洛夫:#PostgresMarathon 2-008:LWLock:锁管理器与预处理语句

Postgres在执行简单SELECT时,前五次使用自定义计划,锁定表及所有索引。第六次切换到通用计划,但仍锁定所有索引。第七次开始仅锁定表。这是由于规划器锁和执行器锁的机制不同所致。

尼古拉·萨莫赫瓦洛夫:#PostgresMarathon 2-008:LWLock:锁管理器与预处理语句

Planet PostgreSQL
Planet PostgreSQL · 2025-10-14T23:59:59Z

本研究解决了机器学习模型中存在的公平性问题,特别是在可能导致严重社会后果的高风险领域。我们提出了一种新的预处理框架FairSHAP,利用Shapley值归因来识别和修改训练数据中的公平性关键实例,从而在减少歧视风险的同时保持数据完整性和模型准确性。研究表明,FairSHAP显著改善了各类表格数据集中的人口平等和机会平等,实现了公平性提升并在某些情况下提升了预测性能。

FairSHAP:通过基于归因的数据增强实现公平性的预处理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-16T00:00:00Z
初学者理解机器学习中的数据预处理

文章强调数据预处理在机器学习中的重要性,指出成功项目80%依赖于数据预处理,20%依赖于算法。介绍了五种关键技术:数据清洗、数据整合、数据转换、数据减少和数据离散化,并通过生活实例简化了复杂概念。

初学者理解机器学习中的数据预处理

DEV Community
DEV Community · 2025-05-07T05:43:12Z

本研究提出了RusBEIR,这是一个针对俄语的信息检索模型基准,强调了预处理的重要性。验证了BM25作为强基线,神经模型在大多数数据集上表现优越,但在长文档检索中受限于输入大小。RusBEIR为俄语信息检索研究提供了统一框架。

建立俄罗斯基准以评估信息检索模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z
数据预处理的常见技术有哪些?

数据预处理是数据科学的重要步骤,旨在将原始数据转化为干净、结构化的格式,以提升机器学习模型的准确性和效率。常见技术包括处理缺失数据、数据清洗、特征工程、异常值处理等。这些技能对数据科学和机器学习认证至关重要。

数据预处理的常见技术有哪些?

DEV Community
DEV Community · 2025-04-09T00:03:18Z

本研究解决了专业领域分词器开发不足的问题,提出了针对法律、金融和政府文本的领域特定BPE分词器,具有更高的效率,使用的标记数量比现有的GPT-4o和Llama3减少了9-17%。此外,字符级BPE分词器在文本纠正任务中表现出色,保持了错误文本和正确文本之间的一致标记边界,显著提升了处理长篇法律和金融文件的性能和效率。

KL3M 分词器:针对法律、金融和预处理应用的领域特定及字符级分词器系列

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-21T00:00:00Z
数据预处理笔记(sklearn)

本文介绍了机器学习中的数据预处理,重点使用sklearn的标准化和特征选择模块。通过Z-score标准化处理某线历史数据,使特征均值为零、方差为一,从而消除特征间的偏见,并展示了数据集特征变化及其可视化效果。

数据预处理笔记(sklearn)

子虚栈
子虚栈 · 2025-03-02T15:52:59Z
数据预处理笔记(sklearn)

本文介绍了机器学习中的数据预处理,重点使用sklearn的Preprocessing模块,包括标准化、Z-score标准化、极差标准化和正则化等方法,以提升模型性能。通过示例数据,展示了特征处理及结果可视化。

数据预处理笔记(sklearn)

子虚栈
子虚栈 · 2025-03-02T15:52:59Z

普通用户对提示的要求过高,且大模型不稳定,导致一次性任务成本高。日常场景中,用户可能不需要 AI,使用表现良好的模型进行需求预处理可提高产品稳定性。

感觉大家慢慢正在达成一个共识,那就是大部分人自己直接写的 prompt 都是不合格的,DeepSeek R1 的最佳使用场景不是直接用来输出,而是一个 prompt 优化器。通过推理过程把初始 prompt 优化之后再喂给 instruct 模型。

学无止境@一点一滴
学无止境@一点一滴 · 2025-02-24T15:20:00Z

本研究提出了乌尔都语LLaMA 1.0模型,旨在提升乌尔都语在多语种大语言模型中的表现。通过在128百万乌尔都语文本上预训练,并利用低秩适应技术微调41000个乌尔都语指令和50000个翻译对,显著提高了模型性能,建立了新的基准。

乌尔都语LLaMA 1.0:低资源环境下的数据集整理、预处理和评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z
第1部分:利用EEG和深度学习检测阿尔茨海默病——理论、动机与预处理

阿尔茨海默病是一种影响全球数百万人的神经退行性疾病。早期检测可以延缓病情进展,提高患者生活质量。本文介绍了一种基于EEG数据和机器学习的早期检测原型,强调信号处理和特征提取的重要性。

第1部分:利用EEG和深度学习检测阿尔茨海默病——理论、动机与预处理

DEV Community
DEV Community · 2025-02-20T09:00:17Z

OCaml的PPX预处理机制允许开发者在编译前进行类型安全的代码转换,增强语言功能。PPX通过操作抽象语法树(AST)实现代码生成,支持自定义语法和功能。尽管提高了开发效率,但也增加了复杂性和性能开销,增加了学习成本。开发者应合理利用PPX,避免过度依赖,以保持代码可维护性。

OCaml的PPX预处理机制解析

勇敢一点
勇敢一点 · 2025-02-18T00:00:00Z

本研究推出了Matina语料库,包含72.9B标记,解决了波斯语数据集稀缺问题。该语料库经过预处理和去重,确保数据质量,为波斯语自然语言处理模型的发展奠定基础。

Matina: A Large-Scale 73B Token Persian Text Corpus

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码