Fatescript ·

关于炼丹，你是否知道这些细节？

💡 原文中文，约5900字，阅读约需14分钟。

📝

内容提要

本文分享了作者在深度学习框架中的经验与教训，重点讨论数据处理、模型训练和多卡训练中的常见问题。作者希望通过总结这些经验，帮助他人避免错误，提高工作效率，并促进知识分享与交流。

🎯

关键要点

作者分享了在深度学习框架中的经验与教训，旨在帮助他人避免错误，提高工作效率。
数据处理时，opencv和Pillow读取的图像格式不同，可能导致数据增强和预训练模型的问题。
使用torchvision的预训练模型时，输入图像需要经过ToTensor操作，确保数据范围在0到1之间。
在多卡训练中，BatchNorm的统计量可能不一致，需注意broadcast_buffer参数的设置。
FP16训练时，保存checkpoint时需保存amp的state_dict，以避免训练中断。
多机分布式训练时，需确保rank设置正确，以避免卡死现象。
作者希望通过总结经验促进知识分享与交流，减少他人踩坑的机会。

❓

延伸问答

在深度学习中，opencv和Pillow读取图像有什么不同？

opencv读取的图像格式是BGR，而Pillow读取的是RGB，这可能导致数据增强和预训练模型的问题。

使用torchvision的预训练模型时，输入图像需要做什么处理？

输入图像需要经过ToTensor操作，将数据范围调整到0到1之间。

在多卡训练中，BatchNorm的统计量可能出现什么问题？

BatchNorm的统计量可能不一致，需要注意broadcast_buffer参数的设置。

FP16训练时，保存checkpoint需要注意什么？

需要保存amp的state_dict，以避免训练中断。

如何处理训练过程中显存炸掉的问题？

可以判断数据本身是否有问题，必要时将一些逻辑放在CPU上，重试训练。

多机分布式训练时，如何避免卡死现象？

需确保rank设置正确，以避免不同机器间的同步问题导致卡死。

🏷️

继续阅读

AI科研工具深度解析：Paperclip如何用arXiv重构论文检索分析方式
Paperclip通过整合arXiv等数据库，重构了AI论文检索方式，允许AI快速检索和分析论文，提升科研效率。AI能够直接处理全文，支持批量操作和跨领域...
用本地大模型驱动中文输入法，我做了一个实验性的项目 - 曦远Code
从一个问题开始你有没有用输入法时遇到这样的情况：打了一段话，下一个词的候选列表里，排第一的偏偏不是你想要的那个，但你知道那个词一定在后面几位，因为你刚才...
保护每一次 AI 调用的隐私安全 — 面向企业和个人的大模型安全接入网关
智链 AI 网关在统一代理转发大模型 API 的基础上，内置**数据脱敏、隐私保护、全链路审计**三大安全能力，确保敏感信息不泄露、每次调用可追溯。支持 ...
石榴中尿石素A预防心脏病：抗动脉硬化，斑块变小更稳定！
尿石素A是由肠道细菌利用石榴中的营养物质产生的化合物，能够通过减少斑块积聚、减轻炎症和提高斑块稳定性来保护动脉。研究表明，尿石素A通过降低氧化应激和炎症信...
Beacon Biosignals正在绘制睡眠中的大脑图谱
Beacon Biosignals公司由Jake Donoghue和Jarrett Revels创立，专注于基于睡眠数据的脑部疾病诊断和治疗。该公司利用轻...
通过语言提升理解力
麻省理工学院的学生Olivia Honeycutt研究语言对人类思维和社会互动的影响。她的研究结合计算机科学、语言学和神经科学，关注语言学习、教育政策和情...