PeaTMOSS: 开源软件中预训练模型的数据集和初步分析
原文中文,约300字,阅读约需1分钟。发表于: 。这篇论文介绍了 PeaTMOSS 数据集,它包含 281,638 个预训练模型的元数据和详细快照,以及 28,575 个使用这些模型的 GitHub 开源软件仓库。此外,该数据集还包括 15,129 个 GitHub 仓库到 2,530 个预训练模型的映射。通过对数据集的分析,揭示了预训练模型供应链的摘要统计、模型包文档的常见缺陷和软件许可证不一致性等问题,为未来的研究提供了丰富的机会。
PeaTMOSS数据集包含281,638个预训练模型的元数据和详细快照,以及28,575个使用这些模型的GitHub开源软件仓库。数据集还包括15,129个GitHub仓库到2,530个预训练模型的映射。通过分析揭示了预训练模型供应链的统计摘要、模型包文档的常见缺陷和软件许可证不一致性等问题。