中国科学院信息工程研究所 | 利用异构信息网络增强对混淆HTTPS隧道流量的检测

原文标题:Enhanced detection of obfuscated HTTPS tunnel traffic using heterogeneous information network
原文作者:Mengyan Liu, Gaopeng Gou, Gang Xiong, Junzheng Shi, Zhong Guan, Hanwen Miao and Yang Li
原文链接:https://www.sciencedirect.com/science/article/abs/pii/S1389128624008077
数据集:https://github.com/Archie2035/HTPA-Dataset
发表期刊:Computer Networks
笔记作者:孙汉林@安全学术圈

1、引言

由于HTTPS协议的广泛使用,HTTPS隧道也成为加密流量规避检测的主流方式之一,以往检测HTTPS隧道流量的方法可以分为如下4类:

  • 通过未加密信息,如证书、TLS握手信息等;
  • 通过人为构造的统计特征,如包大小方向等;
  • 通过深度学习模型自动提取特征识别;
  • 通过主机特征、通信模式、主动探测等。

本文提出了一种名为 HINT (Heterogeneous Information Network for HTTPS Tunnel Traffic Detection) 的新方法来检测 HTTPS 隧道流量。HINT 结合用户通信模式与 VPN 分布特征,构建知识图谱,将流量检测任务转化为图节点分类问题,从而提升检测精度。通过在图中添加难以掩盖的特征(如统计特征、突发序列特征等)作为特殊的指纹节点,采用双层注意力机制,结合主机、服务和客户端层面的特征,增强检测能力。实验结果表明,HINT 在面对混淆流量时依然具有鲁棒性。常见的HTTPS隧道工具和混淆技术如下表所示:

其中,Traffic Padding(流量填充)通过添加额外字节改变数据包大小特征;Traffic Shaping(流量整形)通过插入冗余数据包扰乱流量的时间特征。

2、方案设计

该方案大体分为两部分:

  • 知识图谱构建及语义增强:收集多个用户在指定时间段内的外部通信网络流量数据,并使用异构图对这些通信进行建模。

  • 双层注意力机制分类:HINT 使用双层注意力(Dual-level Attention)机制来学习图中节点的重要性,并将这些信息嵌入到异构图中,从而实现对 HTTPS 隧道流量的分类。

2.1 知识图谱构建及语义增强

作者为通信流量构建了知识图谱,旨在整合额外信息并捕捉主机、服务和客户端信息之间的复杂关系。每个知识图谱被划分为两类子图:会话层子图和主机层子图。会话层子图侧重于捕捉通信会话中的详细特征,而主机层子图则关注主机整体的通信行为。随后,作者将这两种子图合并成一个完整的知识图谱,以全面表征通信流中的多层次信息。

2.1.1 构建会话层子图

在给定的观察时间窗口 t 内,针对每个网络服务,构建了一个异构图 GS = (V, E),图中的节点和边定义如下:

  1. 节点 (V)
  • 服务节点 (Service Node, S) :表示网络服务,包含一个服务 S = {s1}。
  • 客户端节点 (Client Node, C) :表示与服务进行通信的客户端集合 C = {c1, …, cK}。
  • 客户端指纹节点 (Client Fingerprint Node, Fc) :表示从客户端与服务之间的通信流量中提取的特征集合 Fc = {fc1, …, fcn}。
2. 边 (E)
  • C 与 S 之间的边 :表示客户端 C 对服务 S 的访问关系。如果多个客户端与同一服务通信,每个 C-S 交互都会有一条独立的边。
  • C 与 Fc 之间的边 :当从客户端与服务的交互中提取到某一特定特征时,在客户端节点 C 和对应的指纹节点 Fc 之间创建一条边。
3. 属性
每个节点都有其属性,如下表所示。针对客户端指纹属性做了详细说明。
  • Burst Characteristics 指的是在短时间内连续传输的流量序列特征,通过统计分析这些特征(如数据包间隔、数据包数量等)区分正常流量与HTTPS隧道流量。
  • Traffic Characteristic 指的是通过CNN-LSTM模型自动提取的网络流量特征,结合空间和时间维度,分析客户端发起的多个流,以揭示复杂的流量模式和动态特征。
2.1.2 构建主机层子图

与会话层子图类似,在主机层子图中,节点和边的构成如下:

  1. 节点 (V)
  • 主机节点 (Host Node, H):表示提供多种服务的主机,每个主机节点包含一个主机 H = { h1 } 。
  • 服务节点 (Service Node, S):表示主机上部署的具体服务,包含一组服务  S = { s1, ..., sk }。
  • 服务指纹节点 (Service Fingerprint Node, Fs):表示与服务相关的独特统计属性和拓扑特征,包含服务指纹节点集合 Fs = { fs1, ..., fsn }。
2. 边 (E)
  • H与S之间的边:表示主机与其提供的服务之间的连接关系。每个主机节点与多个服务节点连接,表示该主机上运行的不同服务。
  • S与Fs之间的边:表示服务与其相应的服务指纹节点之间的联系,表明该服务的特征或行为(如流量模式、统计特性等)。
3. 属性
每个节点都有其属性,如下表所示。针对服务指纹属性做了详细说明。
  • Statistics Characteristics 指的是流的统计特征,如客户端和域名的数量,用来描述流量的大小和分布。
  • Latency Characteristic 指的是 TLS 和 TCP 的往返时间(RTT)差异特征,通过对比二者差异区分HTTPS隧道流量。
  • Entropy Characteristic 指的是流的熵特征,旨在区分HTTPS隧道流量相较于 HTTPS Web 流量在结构和内容上的复杂性和多样性。
2.1.3 子图融合

在异构图中,节点之间可以通过不同的语义路径连接,这些路径被称为元路径(meta-paths)。为了表示不同语义的邻接关系,本文提出了四种类型的元路径,用于连接知识图谱中的四种节点类型:

  1. SHS元路径:连接主机节点和多个服务节点,表示一个主机上部署了多个服务。
  2. CSC元路径:连接服务节点和多个客户端节点,表示服务和不同客户端之间的通信活动。
  3. FCF元路径:连接客户端节点和多个特征节点,表示客户端的多种通信行为特征。
  4. FSF元路径:连接服务节点和多个特征节点,表示与服务相关的多种特征信息。

这些元路径有助于构建更加复杂和丰富的知识图谱,揭示不同节点和关系之间的多层次联系。

2.2 双层注意力机制分类

HINT是一个深度学习框架,它利用异构图注意力网络(Heterogeneous Graph Attention Network, HGAT),基于双层注意力机制识别HTTPS隧道服务。该架构可分为三个模块:节点层注意力、语义层注意力和二分类层。

2.2.1 节点层注意力

节点层注意力(Node-level Attention)主要用于在图神经网络中,基于元路径(Meta-path)对节点的邻居进行加权,学习邻居节点在特定语义下的重要性。通过这种机制,模型能够自动为每个邻居分配不同的注意力权重,从而生成具有特定语义的节点嵌入(Semantic-specific Node Embeddings)。这种方法有助于处理异构图中的复杂关系,提升节点表示的准确性和效果。

2.2.2 语义层注意力

语义层注意力(Semantic-level Attention)是用来学习不同元路径(meta-path)的重要性,并为每个元路径分配适当的权重。在异构图中,每个节点通常包含多种类型的语义信息,而特定语义的节点嵌入只能反映某一方面的特征。为了获得更全面的节点表示,语义层注意力通过自动学习四种特定语义节点嵌入的权重,并将它们融合成一个综合的节点嵌入。这种方法有助于生成能够全面反映节点多维特征的嵌入表示。

2.2.3 二分类

二分类任务和双层注意力机制(节点层注意力和语义层注意力)之间的关系在于,双层注意力机制用于提取和融合节点的多层次特征,从而为二分类任务提供更丰富和精准的输入特征。将这些通过注意力机制得到的节点嵌入作为输入,可以增强二分类模型的表现,从而提升分类的准确性和鲁棒性。

3、实验结果

该实验使用了自收集的多个数据集,主要包括以下几种:

  1. HTTPS隧道数据集(HTPA):该数据集包含来自多个知名VPN服务(如Hotspot Shield、Browsec VPN、ZenMate VPN等)的HTTPS隧道流量和正常HTTPS流量。数据采集通过爬虫脚本自动访问网站,模拟真实用户行为。

  2. 带流量填充的数据集(HTPA-RD):为了评估本文方法在流量填充攻击下的鲁棒性,数据集中对隧道流量数据包进行了填充处理,使每个短数据包的大小在900到1400字节之间。

  3. 带流量整形的数据集(HTPA-TS-n):此数据集通过在TLS握手的初始阶段和封装阶段注入干扰包进行流量整形,从而掩盖流量指纹特征。数据集根据注入的干扰包数量和位置分为不同版本。

具体实验数据如下:

  • 普通HTTPS隧道流量:HINT在几乎所有评估指标上都优于其他模型

  • 填充HTTPS隧道流量:随机填充对HINT的总体影响很小。

  • 整形HTTPS隧道流量:HINT在所有混淆数据集中表现出最强的稳定性;流量整形是一种比随机填充更有效的混淆技术;HINT对干扰包插入位置的变化具有鲁棒性。

4、总结

本文提出了一种名为HINT的新方法,用于检测HTTPS隧道流量。HINT通过知识图谱建模客户端与VPN服务之间的复杂关系,并将难以掩盖的特征封装为专门的指纹节点以丰富图谱的语义。接着,用双层注意力机制评估不同节点类型和元路径的重要性,最后通过分类器进行节点分类。通过在自收集数据集上的评估,实验结果表明,HINT在面对流量整形和流量填充技术时仍能有效地识别HTTPS隧道流量。

安全学术圈招募队友-ing 
有兴趣加入学术圈的请联系 secdr#qq.com

专题最新征文

  • 期刊征文 | 暗网抑制前沿进展 (中文核心)

  • 期刊征文 | 网络攻击分析与研判 (CCF T2)

  • 期刊征文 | 域名安全评估与风险预警 (CCF T2)



免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。查看原文

为您推荐