DeepSeek数据泄露——12000个硬编码的有效API密钥和密码遭曝光

近期的一项分析发现,在公开抓取的网络数据中,存在 11908 个有效的 DeepSeek API 密钥、密码和身份验证令牌。

据网络安全公司 Truffle Security 称,这项研究凸显了在未经筛选的互联网快照上训练的人工智能模型,如何面临将不安全的编码模式内化并可能重现这些模式的风险。

在此之前,有披露显示大语言模型(LLMs)经常建议在代码库中硬编码凭证,这引发了人们对训练数据在强化这些行为中所起作用的质疑。

DeepSeek 数据泄露

Truffle Security 扫描了 Common Crawl 在 2024 年 12 月的 400TB 数据集,该数据集包含来自 4750 万个主机的 26.7 亿个网页。研究人员使用他们的开源工具 TruffleHog,识别出:

(1)11908 个已验证有效的机密信息,可用于认证访问亚马逊云服务(AWS)、Slack 和 Mailchimp 等服务。

(2)276 万个包含暴露凭证的网页,其中 63% 的密钥在多个域名中重复使用。

(3)一个 WalkScore API 密钥在 1871 个子域名中重复出现 57029 次,这表明凭证重用现象普遍存在。

值得注意的是,该数据集包含高风险的暴露信息,比如前端 HTML 中的 AWS 根密钥,以及在单个网页的聊天功能中硬编码的 17 个独特的 Slack 网络钩子。

Mailchimp API 密钥在泄露中占比最大(超过 1500 个实例)。它们通常直接嵌入客户端 JavaScript 中,这种做法为网络钓鱼活动和数据窃取提供了便利。

Common Crawl 的数据集存储在 90000 个 WARC 文件中,保留了抓取网站的原始 HTML、JavaScript 和服务器响应。

Truffle Security 部署了一个由 20 个节点组成的 AWS 集群来处理该存档,使用awk命令分割文件,并通过 TruffleHog 的验证引擎扫描每个片段。

该工具能够区分有效的机密信息(通过相关服务进行认证)和无效字符串 —— 鉴于大语言模型在训练过程中无法辨别有效凭证,这是至关重要的一步。

研究人员面临着基础设施方面的障碍:WARC 文件的流式传输效率低下最初减缓了处理速度,不过通过对 AWS 的优化,下载时间缩短了 5 – 6 倍。

尽管面临这些挑战,该团队优先考虑以合乎道德的方式进行披露,与 Mailchimp 等供应商合作撤销了数千个密钥,避免了向各个网站所有者进行类似垃圾邮件的通知。

这项研究凸显了一个日益严峻的困境:在公开可访问数据上训练的大语言模型继承了这些数据的安全缺陷。虽然像 DeepSeek 这样的模型采用了额外的保障措施,如微调、对齐技术和提示限制,但训练语料库中普遍存在的硬编码机密信息,可能会使不安全的做法常态化。

无实际功能的凭证(例如占位符令牌)也加剧了这个问题,因为大语言模型在生成代码时无法根据上下文评估它们的有效性。

Truffle Security 警告称,在多个客户端项目中重复使用 API 密钥的开发人员面临更高的风险。例如,一家软件公司共享的 Mailchimp 密钥暴露了与其账户关联的所有客户端域名,这对攻击者来说犹如一座宝库。

缓解措施

为了遏制人工智能生成的漏洞,Truffle Security 建议:

(1)通过 GitHub Copilot 的自定义指令等平台,将安全防护措施集成到人工智能编码工具中,这些措施可以执行禁止硬编码机密信息的策略。

(2)扩展机密扫描程序,将存档的网络数据纳入其中,因为历史上泄露的数据可能会重新出现在训练数据集中。

(3)采用符合道德规范的人工智能技术,使模型与安全最佳实践保持一致,减少敏感模式的无意暴露。

随着大语言模型在软件开发中发挥越来越重要的作用,保障其训练数据的安全不再是可有可无的 —— 这是构建更安全数字未来的基础。

 

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。查看原文

为您推荐