The New Stack ·

超越Python：为何大型语言模型需要更稳定的开源代码

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

未来大型语言模型（LLM）可能无需人类干预，直接用二进制编写代码。目前，LLM偏好Python，但JavaScript和Java也受欢迎。研究显示，LLM在选择编码库时倾向于成熟选项。随着开源模型的兴起，LLM生成的代码需更易维护，减少不确定性，未来可能需要建立代码“种子库”以确保训练数据的稳定性。

🎯

关键要点

未来大型语言模型（LLM）可能无需人类干预，直接用二进制编写代码。
目前LLM偏好使用Python，但JavaScript和Java也受到欢迎。
研究显示LLM在选择编码库时倾向于成熟选项，而非高质量替代品。
随着开源模型的兴起，LLM生成的代码需更易维护，减少不确定性。
生成的代码应更具可维护性，避免使用过于流行的语言和框架。
需要减少LLM计算中的非确定性，确保生成代码的一致性。
建议建立代码“种子库”，以确保训练数据的稳定性和可靠性。
未来LLM将使用更稳定的项目代码，减少生成代码的随机性。

🔎

延伸解读

大型语言模型的语言偏好

当前，大型语言模型（LLM）在生成代码时表现出对Python的强烈偏好。这种偏好可能源于训练数据的选择，尽管JavaScript和Java也在逐渐受到关注。了解这一点有助于开发者在使用LLM时，选择合适的编程语言和库，以提高代码的可维护性和稳定性。

开源模型的崛起

随着开源模型的兴起，LLM生成的代码将更加依赖于成熟的开源组件。这意味着开发者在选择工具和框架时，需关注开源项目的稳定性和历史，以确保生成代码的质量和可维护性。开源模型的竞争也将推动开发生态系统的整体提升。

减少不确定性的重要性

LLM在生成代码时存在一定的不确定性，这可能导致不同时间生成的代码结果不一致。因此，选择历史悠久且经过验证的项目代码，可以有效降低这种不确定性，确保生成代码的一致性和可靠性。开发者应关注这一点，以提高项目的稳定性。

代码“种子库”的必要性

文章提到建立代码“种子库”的重要性，以确保训练数据的稳定性和可靠性。这样的库可以为LLM提供一个安全的代码示例池，避免依赖动态变化的互联网数据，从而提高生成代码的质量和一致性。

❓

延伸问答

大型语言模型（LLM）目前偏好使用哪些编程语言？

目前LLM偏好使用Python，但JavaScript和Java也受到欢迎。

为什么需要建立代码“种子库”？

建立代码“种子库”可以确保训练数据的稳定性和可靠性，减少生成代码的随机性。

LLM生成的代码需要具备哪些特性？

LLM生成的代码应更易维护，减少不确定性，避免使用过于流行的语言和框架。

如何减少LLM计算中的非确定性？

通过选择更稳定的项目代码和减少对流行语言的依赖，可以降低LLM计算中的非确定性。

未来LLM可能会如何编写代码？

未来LLM可能无需人类干预，直接用二进制编写代码。

LLM在选择编码库时有什么倾向？

LLM在选择编码库时倾向于成熟选项，而非高质量替代品。

🏷️