FreeBuf网络安全行业门户 ·

大语言模型训练集中发现超1.2万个API密钥和密码

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

研究表明，训练大语言模型的数据集中存在近1.2万个有效密钥信息，增加了安全风险。无效密钥也可能加剧不安全编码实践。此外，公开源代码库的数据可能被AI工具访问，导致敏感信息泄露。微调AI模型可能引发意外的有害行为，注入攻击成为主要问题。

🎯

❓

训练集中发现了近1.2万个有效的密钥信息。

硬编码凭证增加了安全风险，尤其是当大语言模型建议不安全的编码实践时。

Common Crawl数据集中包含219种不同的密钥类型，包括AWS根密钥和Slack webhooks。

突发性失调是指在不安全代码示例上微调AI模型后，模型在与编码无关的提示下表现出意外的有害行为。

Wayback Copilot攻击方法可能导致曾经公开的数据，即使设置为私有后，仍然被AI工具访问，造成敏感信息泄露。

防止提示注入攻击需要加强模型的安全控制和对抗性训练，以避免生成被禁止的内容。

🏷️

Meta公司放弃开源Llama，转向专有的Muse Spark
Meta公司宣布其新AI模型Muse Spark将取代已被放弃的Llama。Muse Spark采用全新架构，无法与Llama迁移，Llama用户需寻找替...
如何使用Scikit-Learn、AWS Lambda和API Gateway部署无服务器垃圾邮件分类器
在数字时代，垃圾邮件成为安全威胁。开发者利用机器学习构建智能过滤器，本文介绍了一个无服务器垃圾邮件分类器项目，结合Scikit-learn和AWS服务，实...
Zed 1.0协议风波：你的代码被用来做训练数据
Zed 1.0协议引发了开发者对数据使用权和隐私的担忧。模糊的条款导致用户误解，认为自己的代码可能被滥用。AI补全功能需要访问用户代码，可能导致数据外流。...
Visual Studio 2026 18.6 Insiders 3 默认启用 TypeScript 7 Beta
Visual Studio 2026 18.6 Insiders 3 默认启用 TypeScript 7 Beta，提升了编译速度和减少了内存使用。大型项...
Anthropic的Claude Security从封闭预览中推出，扫描您的代码库以发现安全漏洞
Anthropic推出了Claude Security，这是一个用于扫描代码库安全漏洞的工具，现已进入Claude Enterprise客户的测试阶段。该...
Learn The Most In-Demand Tech Skills for FREE
From April 30 - May 10, Zero To Mastery's entire course catalogue is 100% free.