💡
原文英文,约800词,阅读约需3分钟。
📝
内容提要
该文章介绍了一个处理COCO数据集的Python脚本,功能包括参数解析、边界框格式转换、数据集下载、元数据扫描和图像处理。脚本生成训练和验证数据的JSONL文件,并保存处理后的图像。
🎯
关键要点
- 该文章介绍了一个处理COCO数据集的Python脚本。
- 脚本功能包括参数解析、边界框格式转换、数据集下载、元数据扫描和图像处理。
- 脚本生成训练和验证数据的JSONL文件,并保存处理后的图像。
- 使用argparse库解析命令行参数,包括数据集仓库ID、输出目录、样本总数、验证集比例和随机种子。
- 边界框转换函数将绝对坐标转换为Qwen3-VL格式的归一化坐标。
- 数据路径获取函数根据下载源获取数据集的本地路径。
- 元数据扫描函数读取数据集文件,提取有效的图像和对象信息。
- 处理每一行数据时,脚本会保存图像并提取对象类别和边界框信息。
- 主函数负责协调整个处理流程,包括数据下载、元数据扫描、样本选择和结果保存。
- 最终生成的训练和验证数据将保存在指定的输出目录中。
➡️