DEV Community ·

使用“数据准备工具包”处理数据（第二部分）

💡 原文英文，约1700词，阅读约需6分钟。

📝

内容提要

本文介绍了如何使用数据准备工具包将HTML转换为Markdown，并将其存储到Milvus向量数据库中，随后通过LLM进行查询。

🎯

关键要点

本文介绍了如何使用数据准备工具包将HTML转换为Markdown，并将其存储到Milvus向量数据库中。
数据准备工具包（Data Prep Kit）是IBM Research开源的工具，适用于LLM或AI代理的数据准备。
工具包支持自然语言和代码的数据处理，基于Python、Ray和Spark等常用框架构建。
需要的本地工具包括Ollama、Podman和Milvus，使用Jupyter Lab进行代码运行。
使用html2parquet转换HTML文件为Markdown格式，并保存到指定目录。
将生成的Markdown文本存储到Milvus向量数据库中，配置包括数据库URI和集合名称。
使用Llama-index库将Markdown文档分块并存储到Milvus中，以便后续查询。
通过配置LLM模型和连接Milvus，用户可以查询存储在数据库中的数据。
数据准备工具包旨在简化数据准备过程，减少手动工作和编码需求，提高数据质量。

❓

延伸问答

数据准备工具包的主要功能是什么？

数据准备工具包旨在简化数据准备过程，支持自然语言和代码的数据处理，减少手动工作和编码需求，提高数据质量。

如何将HTML文件转换为Markdown格式？

使用html2parquet转换工具，可以将HTML文件转换为Markdown格式，并保存到指定目录。

Milvus向量数据库的配置需要哪些信息？

Milvus的配置包括数据库URI和集合名称，用户需要在配置文件中设置这些信息。

如何将生成的Markdown文本存储到Milvus中？

使用Llama-index库将Markdown文档分块并存储到Milvus向量数据库中，以便后续查询。

使用数据准备工具包需要哪些本地工具？

需要的本地工具包括Ollama、Podman和Milvus，使用Jupyter Lab进行代码运行。

数据准备工具包如何提高数据质量？

通过提供模块化和可重用的工具，数据准备工具包减少了手动工作和编码需求，从而提高数据质量。

🏷️

标签

HTML Markdown Milvus 数据准备工具包查询

➡️

继续阅读

实时合规性：证明执行了什么、使用了哪些数据以及是否符合规定
实时合规性要求在工作执行时应用控制，而非事后审计。许多组织在机器和AI活动中缺乏有效控制，导致合规性难以实时证明。实现实时合规需确保政策在执行前强制执行，...
在GIMP中保留EXIF元数据
在Ubuntu 26.04 LTS上使用GIMP编辑照片时，EXIF元数据可能会丢失。尽管启用了“导出时默认保存EXIF元数据”选项，但在“文件 ->...
ChatGPT向所有个人用户推出锁定模式可禁用外部链接或服务降低数据泄露风险
OpenAI推出了ChatGPT的锁定模式，以提高用户安全性。该模式阻止AI联网处理数据，但无法完全防止恶意提示词攻击。用户可以主动开启此模式，但会限制部...
AI 如何重塑 UCaaS 和 CCaaS 的定价模式
过去十年，统一通信即服务 (UCaaS) 和通信即服务 (CCaaS) 的定价一直在朝着简化的方向发展。购买席位，选择套餐级别，然后根据需要添加电话号码...
Android 自定义实况图（Live Photo）拍摄方案
在 Android 端，为了实现与 iOS 相同的逻辑——“自主掌控 GPU 特效（如美颜 Shader、AI 挂件），且点击拍摄自动捕捉前后各 1.5 ...
芯原推动AV2在下一代视频与流媒体应用中商用落地
2026年6月9日，中国上海——芯原股份 (芯原，股票代码：688521.SH) 今日宣布其VC9800D视频处理 (VPU) IP已支持AV2解码，进一...