DeepSeek数据泄露——12000个硬编码的有效API密钥和密码遭曝光

近期的一项分析发现，在公开抓取的网络数据中，存在 11908 个有效的 DeepSeek API 密钥、密码和身份验证令牌。

据网络安全公司 Truffle Security 称，这项研究凸显了在未经筛选的互联网快照上训练的人工智能模型，如何面临将不安全的编码模式内化并可能重现这些模式的风险。

在此之前，有披露显示大语言模型（LLMs）经常建议在代码库中硬编码凭证，这引发了人们对训练数据在强化这些行为中所起作用的质疑。

DeepSeek 数据泄露

Truffle Security 扫描了 Common Crawl 在 2024 年 12 月的 400TB 数据集，该数据集包含来自 4750 万个主机的 26.7 亿个网页。研究人员使用他们的开源工具 TruffleHog，识别出：

（1）11908 个已验证有效的机密信息，可用于认证访问亚马逊云服务（AWS）、Slack 和 Mailchimp 等服务。

（2）276 万个包含暴露凭证的网页，其中 63% 的密钥在多个域名中重复使用。

（3）一个 WalkScore API 密钥在 1871 个子域名中重复出现 57029 次，这表明凭证重用现象普遍存在。

值得注意的是，该数据集包含高风险的暴露信息，比如前端 HTML 中的 AWS 根密钥，以及在单个网页的聊天功能中硬编码的 17 个独特的 Slack 网络钩子。

Mailchimp API 密钥在泄露中占比最大（超过 1500 个实例）。它们通常直接嵌入客户端 JavaScript 中，这种做法为网络钓鱼活动和数据窃取提供了便利。

Common Crawl 的数据集存储在 90000 个 WARC 文件中，保留了抓取网站的原始 HTML、JavaScript 和服务器响应。

Truffle Security 部署了一个由 20 个节点组成的 AWS 集群来处理该存档，使用awk命令分割文件，并通过 TruffleHog 的验证引擎扫描每个片段。

该工具能够区分有效的机密信息（通过相关服务进行认证）和无效字符串 —— 鉴于大语言模型在训练过程中无法辨别有效凭证，这是至关重要的一步。

研究人员面临着基础设施方面的障碍：WARC 文件的流式传输效率低下最初减缓了处理速度，不过通过对 AWS 的优化，下载时间缩短了 5 – 6 倍。

尽管面临这些挑战，该团队优先考虑以合乎道德的方式进行披露，与 Mailchimp 等供应商合作撤销了数千个密钥，避免了向各个网站所有者进行类似垃圾邮件的通知。

这项研究凸显了一个日益严峻的困境：在公开可访问数据上训练的大语言模型继承了这些数据的安全缺陷。虽然像 DeepSeek 这样的模型采用了额外的保障措施，如微调、对齐技术和提示限制，但训练语料库中普遍存在的硬编码机密信息，可能会使不安全的做法常态化。

无实际功能的凭证（例如占位符令牌）也加剧了这个问题，因为大语言模型在生成代码时无法根据上下文评估它们的有效性。

Truffle Security 警告称，在多个客户端项目中重复使用 API 密钥的开发人员面临更高的风险。例如，一家软件公司共享的 Mailchimp 密钥暴露了与其账户关联的所有客户端域名，这对攻击者来说犹如一座宝库。

缓解措施

为了遏制人工智能生成的漏洞，Truffle Security 建议：

（1）通过 GitHub Copilot 的自定义指令等平台，将安全防护措施集成到人工智能编码工具中，这些措施可以执行禁止硬编码机密信息的策略。

（2）扩展机密扫描程序，将存档的网络数据纳入其中，因为历史上泄露的数据可能会重新出现在训练数据集中。

（3）采用符合道德规范的人工智能技术，使模型与安全最佳实践保持一致，减少敏感模式的无意暴露。

随着大语言模型在软件开发中发挥越来越重要的作用，保障其训练数据的安全不再是可有可无的 —— 这是构建更安全数字未来的基础。

思科解决了其身份服务引擎（ISE）中的两个关键缺陷