The Cloudflare Blog ·

我们如何训练AI揭示恶意JavaScript意图，提升网络安全

💡 原文英文，约2800词，阅读约需11分钟。

📝

内容提要

现代网站依赖JavaScript和第三方脚本，但供应链攻击日益严重。Cloudflare的Page Shield利用新AI模型检测JavaScript脚本的恶意意图，提升客户端安全性，帮助组织保护用户免受安全风险。

🎯

关键要点

现代网站依赖JavaScript和第三方脚本，供应链攻击日益严重。
Cloudflare的Page Shield利用新AI模型检测JavaScript脚本的恶意意图，提升客户端安全性。
Page Shield能够扫描网页上的JavaScript依赖，标记混淆的脚本内容。
新AI模型能够检测每个脚本的具体恶意意图，集成到Page Shield中。
Page Shield提供对客户端威胁的更深入可见性，帮助组织保护用户。
训练模型以检测隐藏的恶意意图面临独特挑战，包括处理不同风格的JavaScript代码。
使用语法树对恶意代码进行分类，Graph Neural Network（GNN）有效捕捉代码执行中的节点间关系。
通过解析JavaScript文件生成语法树，使用tree-sitter库以提高速度。
模型输出概率被转换为分数，低分表示可能恶意，高分表示可能良性。
处理不平衡数据，恶意脚本在数据集中占少数，收集和标注数据的策略为双重。
利用最新的LLM生成代码嵌入，减少误报并节省标注时间。
在真实世界中，模型的宏观准确率和整体恶意精度接近99%。
通过评估指标不确定性、基准测试和在暂存环境中审查来确保模型的稳定性。
Page Shield平均每秒处理40,000个脚本，采用树结构进行缓存以提高效率。
Page Shield帮助满足PCI DSS v4中的客户端安全要求，确保支付页面的安全性。

🔎

延伸解读

供应链攻击的现实威胁

随着现代网站对JavaScript和第三方脚本的依赖加深，供应链攻击的风险也在上升。这种攻击不仅影响网站的安全性，还可能导致用户数据泄露。因此，组织需要采取更有效的安全措施来保护用户，Cloudflare的Page Shield正是应对这一挑战的创新解决方案。

AI模型的训练挑战

训练AI模型以检测JavaScript中的恶意意图面临多重挑战，包括代码风格的多样性和混淆技术的使用。为了提高模型的准确性，开发者采用了语法树和图神经网络（GNN），这使得模型能够更好地捕捉代码执行中的节点关系，从而有效识别潜在的恶意脚本。

数据不平衡问题

在恶意JavaScript脚本的检测中，数据集的不平衡性是一个主要问题。恶意脚本通常占数据集的少数，这使得模型在训练时容易受到影响。为了解决这一问题，开发者采取了双重策略，既增加恶意脚本的数量，又确保良性脚本的多样性，以提高模型的整体性能。

合规性与安全性

Cloudflare的Page Shield不仅提升了JavaScript的安全性，还帮助企业满足PCI DSS v4的合规要求。这些要求将于2025年生效，企业需要确保支付页面的安全性，防止恶意JavaScript对用户支付信息的威胁。使用Page Shield可以有效降低合规风险，保护用户数据。

❓

延伸问答

Cloudflare的Page Shield如何提升网络安全？

Page Shield利用新AI模型检测JavaScript脚本的恶意意图，从而提升客户端安全性，帮助组织保护用户免受安全风险。

训练AI模型以检测恶意JavaScript面临哪些挑战？

训练模型面临的挑战包括处理不同风格的JavaScript代码、识别混淆代码以及应对不平衡的数据集。

Page Shield如何处理不平衡的数据集？

Page Shield通过双重策略收集和标注数据，增加恶意脚本的数量，同时确保良性脚本的多样性。

Page Shield的AI模型如何分类恶意代码？

模型使用语法树和图神经网络（GNN）来捕捉代码执行中的节点间关系，从而有效分类恶意代码。

Page Shield在真实环境中的表现如何？

在真实环境中，Page Shield的宏观准确率和整体恶意精度接近99%。

Page Shield如何帮助满足PCI DSS v4的安全要求？

Page Shield帮助公司批准用于支付页面的脚本，确保支付卡数据不受恶意JavaScript的威胁，从而满足PCI DSS v4的安全要求。

🏷️