DataFlow是一个数据准备和管道系统,旨在提升特定领域的训练和检索增强生成(RAG)。它通过模块化操作符组合成可重用的管道,处理来自PDF、文本等噪声源的数据,生成高质量数据集,适用于医疗、金融和法律等领域的数据清理和标注。该项目主要用Python实现,支持Docker和GPU加速。
完成下面两步后,将自动完成登录并继续当前操作。