中国科学院信息工程研究所 | 利用异构信息网络增强对混淆HTTPS隧道流量的检测

原文标题：Enhanced detection of obfuscated HTTPS tunnel traffic using heterogeneous information network
原文作者：Mengyan Liu, Gaopeng Gou, Gang Xiong, Junzheng Shi, Zhong Guan, Hanwen Miao and Yang Li
原文链接：https://www.sciencedirect.com/science/article/abs/pii/S1389128624008077
数据集：https://github.com/Archie2035/HTPA-Dataset
发表期刊：Computer Networks
笔记作者：孙汉林@安全学术圈

1、引言

由于HTTPS协议的广泛使用，HTTPS隧道也成为加密流量规避检测的主流方式之一，以往检测HTTPS隧道流量的方法可以分为如下4类：

通过未加密信息，如证书、TLS握手信息等；
通过人为构造的统计特征，如包大小方向等；
通过深度学习模型自动提取特征识别；
通过主机特征、通信模式、主动探测等。

本文提出了一种名为 HINT (Heterogeneous Information Network for HTTPS Tunnel Traffic Detection) 的新方法来检测 HTTPS 隧道流量。HINT 结合用户通信模式与 VPN 分布特征，构建知识图谱，将流量检测任务转化为图节点分类问题，从而提升检测精度。通过在图中添加难以掩盖的特征（如统计特征、突发序列特征等）作为特殊的指纹节点，采用双层注意力机制，结合主机、服务和客户端层面的特征，增强检测能力。实验结果表明，HINT 在面对混淆流量时依然具有鲁棒性。常见的HTTPS隧道工具和混淆技术如下表所示：

其中，Traffic Padding（流量填充）通过添加额外字节改变数据包大小特征；Traffic Shaping（流量整形）通过插入冗余数据包扰乱流量的时间特征。

2、方案设计

该方案大体分为两部分：

知识图谱构建及语义增强：收集多个用户在指定时间段内的外部通信网络流量数据，并使用异构图对这些通信进行建模。
双层注意力机制分类：HINT 使用双层注意力（Dual-level Attention）机制来学习图中节点的重要性，并将这些信息嵌入到异构图中，从而实现对 HTTPS 隧道流量的分类。

2.1 知识图谱构建及语义增强

作者为通信流量构建了知识图谱，旨在整合额外信息并捕捉主机、服务和客户端信息之间的复杂关系。每个知识图谱被划分为两类子图：会话层子图和主机层子图。会话层子图侧重于捕捉通信会话中的详细特征，而主机层子图则关注主机整体的通信行为。随后，作者将这两种子图合并成一个完整的知识图谱，以全面表征通信流中的多层次信息。

2.1.1 构建会话层子图

在给定的观察时间窗口 t 内，针对每个网络服务，构建了一个异构图 G_S = (V, E)，图中的节点和边定义如下：

节点 (V)

服务节点 (Service Node, S) ：表示网络服务，包含一个服务 S = {s₁}。
客户端节点 (Client Node, C) ：表示与服务进行通信的客户端集合 C = {c₁, …, c_K}。
客户端指纹节点 (Client Fingerprint Node, F_c) ：表示从客户端与服务之间的通信流量中提取的特征集合 F_c = {f_c1, …, f_cn}。

2. 边 (E)

C 与 S 之间的边：表示客户端 C 对服务 S 的访问关系。如果多个客户端与同一服务通信，每个 C-S 交互都会有一条独立的边。
C 与 F_c 之间的边：当从客户端与服务的交互中提取到某一特定特征时，在客户端节点 C 和对应的指纹节点 F_c 之间创建一条边。

3. 属性
每个节点都有其属性，如下表所示。针对客户端指纹属性做了详细说明。

Burst Characteristics 指的是在短时间内连续传输的流量序列特征，通过统计分析这些特征（如数据包间隔、数据包数量等）区分正常流量与HTTPS隧道流量。
Traffic Characteristic 指的是通过CNN-LSTM模型自动提取的网络流量特征，结合空间和时间维度，分析客户端发起的多个流，以揭示复杂的流量模式和动态特征。

2.1.2 构建主机层子图

与会话层子图类似，在主机层子图中，节点和边的构成如下：

节点 (V)

主机节点 (Host Node, H)：表示提供多种服务的主机，每个主机节点包含一个主机 H = { h₁ } 。
服务节点 (Service Node, S)：表示主机上部署的具体服务，包含一组服务 S = { s₁, ..., s_k }。
服务指纹节点 (Service Fingerprint Node, F_s)：表示与服务相关的独特统计属性和拓扑特征，包含服务指纹节点集合 F_s = { f_s1, ..., f_sn }。

2. 边 (E)

H与S之间的边：表示主机与其提供的服务之间的连接关系。每个主机节点与多个服务节点连接，表示该主机上运行的不同服务。
S与F_s之间的边：表示服务与其相应的服务指纹节点之间的联系，表明该服务的特征或行为（如流量模式、统计特性等）。

3. 属性
每个节点都有其属性，如下表所示。针对服务指纹属性做了详细说明。

Statistics Characteristics 指的是流的统计特征，如客户端和域名的数量，用来描述流量的大小和分布。
Latency Characteristic 指的是 TLS 和 TCP 的往返时间（RTT）差异特征，通过对比二者差异区分HTTPS隧道流量。
Entropy Characteristic 指的是流的熵特征，旨在区分HTTPS隧道流量相较于 HTTPS Web 流量在结构和内容上的复杂性和多样性。

2.1.3 子图融合

在异构图中，节点之间可以通过不同的语义路径连接，这些路径被称为元路径（meta-paths）。为了表示不同语义的邻接关系，本文提出了四种类型的元路径，用于连接知识图谱中的四种节点类型：

SHS元路径：连接主机节点和多个服务节点，表示一个主机上部署了多个服务。
CSC元路径：连接服务节点和多个客户端节点，表示服务和不同客户端之间的通信活动。
FCF元路径：连接客户端节点和多个特征节点，表示客户端的多种通信行为特征。
FSF元路径：连接服务节点和多个特征节点，表示与服务相关的多种特征信息。

这些元路径有助于构建更加复杂和丰富的知识图谱，揭示不同节点和关系之间的多层次联系。

2.2 双层注意力机制分类

HINT是一个深度学习框架，它利用异构图注意力网络（Heterogeneous Graph Attention Network, HGAT），基于双层注意力机制识别HTTPS隧道服务。该架构可分为三个模块：节点层注意力、语义层注意力和二分类层。

2.2.1 节点层注意力

节点层注意力（Node-level Attention）主要用于在图神经网络中，基于元路径（Meta-path）对节点的邻居进行加权，学习邻居节点在特定语义下的重要性。通过这种机制，模型能够自动为每个邻居分配不同的注意力权重，从而生成具有特定语义的节点嵌入（Semantic-specific Node Embeddings）。这种方法有助于处理异构图中的复杂关系，提升节点表示的准确性和效果。

2.2.2 语义层注意力

语义层注意力（Semantic-level Attention）是用来学习不同元路径（meta-path）的重要性，并为每个元路径分配适当的权重。在异构图中，每个节点通常包含多种类型的语义信息，而特定语义的节点嵌入只能反映某一方面的特征。为了获得更全面的节点表示，语义层注意力通过自动学习四种特定语义节点嵌入的权重，并将它们融合成一个综合的节点嵌入。这种方法有助于生成能够全面反映节点多维特征的嵌入表示。

2.2.3 二分类

二分类任务和双层注意力机制（节点层注意力和语义层注意力）之间的关系在于，双层注意力机制用于提取和融合节点的多层次特征，从而为二分类任务提供更丰富和精准的输入特征。将这些通过注意力机制得到的节点嵌入作为输入，可以增强二分类模型的表现，从而提升分类的准确性和鲁棒性。

3、实验结果

该实验使用了自收集的多个数据集，主要包括以下几种：

HTTPS隧道数据集（HTPA）：该数据集包含来自多个知名VPN服务（如Hotspot Shield、Browsec VPN、ZenMate VPN等）的HTTPS隧道流量和正常HTTPS流量。数据采集通过爬虫脚本自动访问网站，模拟真实用户行为。
带流量填充的数据集（HTPA-RD）：为了评估本文方法在流量填充攻击下的鲁棒性，数据集中对隧道流量数据包进行了填充处理，使每个短数据包的大小在900到1400字节之间。
带流量整形的数据集（HTPA-TS-n）：此数据集通过在TLS握手的初始阶段和封装阶段注入干扰包进行流量整形，从而掩盖流量指纹特征。数据集根据注入的干扰包数量和位置分为不同版本。

具体实验数据如下：

普通HTTPS隧道流量：HINT在几乎所有评估指标上都优于其他模型
填充HTTPS隧道流量：随机填充对HINT的总体影响很小。
整形HTTPS隧道流量：HINT在所有混淆数据集中表现出最强的稳定性；流量整形是一种比随机填充更有效的混淆技术；HINT对干扰包插入位置的变化具有鲁棒性。

4、总结

本文提出了一种名为HINT的新方法，用于检测HTTPS隧道流量。HINT通过知识图谱建模客户端与VPN服务之间的复杂关系，并将难以掩盖的特征封装为专门的指纹节点以丰富图谱的语义。接着，用双层注意力机制评估不同节点类型和元路径的重要性，最后通过分类器进行节点分类。通过在自收集数据集上的评估，实验结果表明，HINT在面对流量整形和流量填充技术时仍能有效地识别HTTPS隧道流量。

安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com

专题最新征文

期刊征文 | 暗网抑制前沿进展 (中文核心)
期刊征文 | 网络攻击分析与研判 (CCF T2)
期刊征文 | 域名安全评估与风险预警 (CCF T2)

1、引言

2、方案设计

2.1 知识图谱构建及语义增强

2.1.1 构建会话层子图

2.1.2 构建主机层子图

2.1.3 子图融合

2.2 双层注意力机制分类

2.2.1 节点层注意力

2.2.2 语义层注意力

2.2.3 二分类

3、实验结果

4、总结

为您推荐

思科解决了其身份服务引擎（ISE）中的两个关键缺陷

捷克总统签署“具有里程碑意义”的加密货币法案：CKMA

全年披露40000+漏洞，《2024年度网络安全漏洞分析报告》解码漏洞风险

黑客在第四季度部署了Web Shell，利用了面向公众的应用程序

【法治宣传】筑牢网络安全 守护你我“童”行

增强网络安全意识 筑牢网络安全防线——国内合作发展处、基金会、校友会党支部开展网络安全主题党日活动

【法治宣传】筑牢网络安全守护你我“童”行

增强网络安全意识筑牢网络安全防线——国内合作发展处、基金会、校友会党支部开展网络安全主题党日活动