The New Stack ·

超越‘左移’：提升AI训练数据质量

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

软件开发面临“工程生产力悖论”，尽管AI助手能生成大量代码，但生产力提升有限，主要是因为生成代码的质量较差。为改善这一状况，需要优化LLM的训练数据，并利用静态分析工具筛选问题代码，从源头提升代码质量，减轻人类开发者的审查负担。

🎯

关键要点

软件开发面临工程生产力悖论，AI助手生成大量代码但生产力提升有限。
AI生成代码的质量较差，导致人类开发者需进行大量审查和修复。
大型语言模型（LLM）训练于未经过滤的公共代码库，存在大量缺陷和安全漏洞。
行业倡导的“向左转”运动未能有效应对AI生成代码的质量问题。
需要将重点从审查AI生成的代码转向改善LLM的训练数据。
新方法通过静态分析引擎清理训练数据，提升代码质量。
经过清理的数据训练的模型生成的代码缺陷显著减少，安全漏洞和错误数量降低。
真正的开发速度不仅仅是输出数量，而是高质量、安全和可维护代码的生产。

❓

延伸问答

为什么AI助手生成的代码未能显著提升生产力？

因为AI生成的代码质量较差，导致人类开发者需要进行大量审查和修复。

什么是工程生产力悖论？

工程生产力悖论是指尽管AI助手生成大量代码，但生产力提升有限，主要由于代码质量不高。

如何改善大型语言模型（LLM）的训练数据质量？

通过使用静态分析工具清理训练数据，筛选出问题代码，从源头提升代码质量。

‘向左转’运动在AI生成代码质量问题上有什么局限性？

‘向左转’运动未能有效应对AI生成代码的质量问题，因为它只关注代码审查，而忽视了训练数据的质量。

静态分析工具在提升代码质量中起到什么作用？

静态分析工具可以识别和过滤掉训练数据中的问题代码，从而提升AI生成代码的质量。

清理后的训练数据对模型生成代码有什么影响？

经过清理的数据训练的模型生成的代码缺陷显著减少，安全漏洞和错误数量降低。

🏷️

继续阅读

WPS笔记正式发布：AI贯穿记录、整理与复用全过程
金山办公于6月5日发布了AI笔记产品WPS笔记，旨在提升个人知识管理。该产品支持语音、图片和文字等多种信息录入方式，强调信息的主动理解与复用。通过多级AI...
知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...
早报｜苹果App Store四成头部应用已支持AI/千问上线肯德基skill/奈雪擦边LABUBU被判赔32万
腾讯客服表示，微信与华为、小米等厂商合作推出A2A助手，用户可通过AI助手发起微信通话或发送消息。荣耀部分机型已支持此功能，确保数据安全与隐私。
Asana称其新的AI“首席助理”将您的Slack混乱转化为可追踪的工作
Asana在伦敦的工作创新峰会上推出了名为Dash的AI助手，旨在提升工作管理平台的效率。Dash能够从会议、Slack和邮件中捕捉待办事项，并将其转化为...
2026年数据与AI峰会：金融服务领导者的内部指南
2026年数据与AI峰会将于6月15日至18日在旧金山举行，聚焦金融服务行业的AI转型与现代化，主要议题包括保险承保、负责任的AI应用及资本市场智能化。与...
《Java 注释月刊》– 2026年6月
《Java Annotated Monthly》六月刊介绍了软件开发领域的最新动态，包括Java和Kotlin的更新、AI技术的进展以及相关教程和播客。文...