💡
原文英文,约2400词,阅读约需9分钟。
📝
内容提要
本文分析了开源机器学习生态系统的变化,重点关注基础模型的堆栈。作者搜索了GitHub上至少有500颗星的软件仓库,找到了896个。将这些仓库分为基础设施、模型开发、应用开发和应用程序四个层次。文章还提到了中国的开源生态系统与西方的差异,并列举了一些中国受众的热门AI软件仓库。最后,作者分享了一些个人喜欢的创意和工具。
🎯
关键要点
-
本文分析了开源机器学习生态系统的变化,重点关注基础模型的堆栈。
-
作者在GitHub上搜索了至少有500颗星的软件仓库,找到896个。
-
这些仓库分为基础设施、模型开发、应用开发和应用程序四个层次。
-
文章提到中国的开源生态系统与西方的差异,并列举了一些中国受众的热门AI软件仓库。
-
作者分享了一些个人喜欢的创意和工具。
-
AI堆栈由四层组成:基础设施、模型开发、应用开发和应用程序。
-
基础设施层包括服务工具、计算管理和数据库等。
-
模型开发层提供开发模型的工具,包括建模和训练框架。
-
应用开发层是过去两年中行动最多的一层,涉及提示工程和AI接口等。
-
应用层包括许多基于现有模型的开源应用程序,最流行的类型包括编码和信息聚合。
-
2023年,应用层和应用开发层的增长最为显著。
-
基础设施层的增长相对较小,主要因为基础设施产品通常不开源。
-
845个软件仓库由594个不同的GitHub账户托管,前20个账户控制了23%的仓库。
-
中国的开源生态系统正在快速发展,许多热门AI仓库的描述是用中文写的。
-
许多仓库在短时间内获得大量关注后又迅速消失,形成了“炒作曲线”。
-
作者分享了一些个人喜欢的创意,如批量推理优化和模型合并等。
-
尽管分析只包括845个仓库,作者浏览了数千个仓库以获得全面的视角。
➡️