当前位置:   article > 正文

文献阅读:Fingerprinting Obfuscated Proxy Traffic with Encapsulated TLS Handshakes

fingerprinting obfuscated proxy traffic with encapsulated tls handshakes

论文档次:USENIX2024,CCF-A

推荐理由:创新性好,背景介绍&相关工作总结的非常好,表述非常好,并且细节处理得当。值得反复阅读。

作者介绍:论文团队在censorship领域有许多工作,一作Xue博士水平很高,发表在USENIX2023的文章《OpenVPN is Open to VPN Fingerprinting》获得了best Paper。

背景:

  • 学术界常用circumvention Tool形容翻墙工具。为方便阅读本文翻译为规避工具。
  • 为了躲避检测,规避工具常使用以下技术:
    • making the channels look like protocols that are allowed [45,66,85,4,39,60,93] -> 协议模仿
    • disguising the channels to ensure they do not resemble protocols that are prohibited [19,27,30]->协议伪装(shadowsocks, vmess, obfs4)
  • 作者对encapsulated TLS的定义:Encapsulated TLS handshakes refer to the TLS handshakes of user traffic transmitted within an encrypted or obfuscated cover protocol (including an outer layer of TLS).
  • 审查和抗审查是一场军备竞赛
    • 审查员主动探测 ->  抗探测 [46,52,86] (52值得阅读)
    • 审查员利用TLS指纹进行识别 [2,51,86,23,53,86] -> 模拟主流浏览器的指纹[53]
    • 审查员利用字符熵识别 [89] -> 把高熵改成低熵 [11,20]
  • 社区共识:对规避工具的识别需要一事一议,需要为每种cover protocol单独进行分析。这里的 cover protocol 是值协议嵌套,例如TLS in TLS。
  • 有些规避工具通过嵌套协议来绕过审查,本文的目的是识别嵌套的TLS。

主要贡献:

  •  本文提出了一种与协议无关(protocol-agnostic)的识别方法,一文搞定,不需要一事一议了。
  • 本文证明了尽管嵌套的TLS(原文:encapsulated TLS)无法被协议解析器识别,但是可以通过大小、时间、方向进行识别。
  • 分析了23个obfuscated proxy configurations, 包括shadowsocks, vmess, trojan, and vless, and protocols proposed in previous research like httpt。所知发现所有的配置都可以识别,假阳率都超过了70%。30天内通过Merit收集了110Million流,假阳率低于0.0544%。

动机:

  • 嵌套协议是所有的代理和隧道活动的基础
  • 嵌套协议在常规的client-server连接中很少见
  • 尽管TLS被封装到其他协议中了,但是仍然会暴露一些包大小、方向等特征。例如Client Hello消息大概在200-500字节之间;而server Hello通常会有数千字节;并且这些数据包是有一定的顺序的。

方法:

  • 特征抽取:
    • 使用SEQ/ACK构造包序列,每个整数表示TCP payload,符号表示方向。例如一个序列可以表示为(+517,-400,-1400,+80),此外,还记录了数据包的到达时间间隔。
    • 从数据包序列中抽取n-gram,经过实验&受[88]的启发,发现3-gram效果最好,例如(+517,-400,-1400)。
    • 作者将客户端发出的SYN包和第一个ACK包之间的时间视为RTT。作者说Burst序列对包级别的变化更加鲁棒,因此按照如下规则构造了Burst序列:
      • 聚合同一方向的包
      • 包间隔时间小于3倍的RTT
  • 分类器:
    • 对3-gram进行了Chi-squard(卡方检验)以及进行了Mohalanobis距离测试,当两个条件都满足的时候才认为是TLS流。
    • 标准MTU是1500,为了避免3-gram的组合太多,对数据进行分箱。本文中,作者将箱体设为4 (M= [L1 : 1−160,L2 : 161−600,L3 : 601−1210,L4 : 1211+].),其中正负号代表方向。作者说这么划分可以将ClientHello, ServerHello, ChangeCipherSpec区分开,例如99.26%的ClientHello倍映射到了L2. 
    • Chi-squard Test over 3-grams算法:
      • Training:
        • 对给定的序列进行映射,例如获得(L2,−L4,L1);
        • 计算给定的3-gram在TLS类和非TLS类的概率;
        • 计算每个3-gram的区分度
        • 对所有3-gram进行排序
      • Testing:
        • 对给定的序列进行映射
        • 计算3-gram与TLS类和非TLS类的卡方距离比值
        • 距离比值大于阈值就是TLS流量,非则是非TLS流量
    • Mohalanobis Distance over Bursts:
      • Mohalanobis的好处:假设我们有一组数据点,这些点代表人的身高和体重的组合。我们想要计算一个特定的身高体重组合(比如一个新观测到的个体)与这组数据的平均身高体重组合之间的距离。传统的欧氏距离方法直接计算新观测点的身高和体重与数据集平均身高体重的差的平方和的平方根。这种方法没有考虑身高和体重之间可能存在的关系(比如身高越高的人可能体重也越重)马氏距离考虑了多维数据的内在关联性。
      • 当给定的序列s, 计算与已收集样本的马氏距离,小于等于阈值就是正样本
    • 效果评估:
      • 对不同版本的TLS单独设置分类器
      • 计算每个样本的卡方距离和马氏距离,删除异常值,然后重复计算。
      • 发现分类器在TLS1.2上的效果比TLS1.3好,因为TLS1.2比TLS1.3多一次往返,降低了巧合匹配的可能性。

数据集

  • 使用Merit网络内的客户端连接到代理服务器,通过代理服务器访问Top 1K网站,收集流量,生成了15000条流。考虑到有的代理会采用流复用,因此采集过程中会重新启动代理,强制不允许复用。
  • Merit位于一个网络审查最少的国家,因此作者认为除了自己发的代理数据包,剩下的都是正常的,在这种情况下得出的FPR是很保守的。

结果:

  • 下图展示了不同分组中FPR与TPR的关系,作者建议关注FPR小于0.6%的区域(阴影),作者估测GTW也是关注这个范围[89]。对于obfs4,作者建议采取稍微宽松的TPR。
  • Vmess,Shadowsocks,vless,trojan生成的超过70%的流量,考虑到审查员可以通过多次识别,这个效果是很好的。虽然Vmess支持填充方案,但是填充大小从0-63,无法对抗作者的方法。
  • 对于简单的填充,例如Vmess,对抗效果并不好,Vmess不使用填充->使用填充,TPR从0.859降到0.687。对于X-TLS和obfs4, 审查员可以针对这两个协议专门训练模型,尽管会牺牲一点误报率(FPR 0.0544%->0.6127%)但特殊事情可以接受。
  • 作者证明了尽管协议嵌套是一种流行的方法,但它并不能提供额外的安全性。
  • 作者坦言本多路复用会降低本方法的检测准确率,因为多个TLS握手可能交织在一起。

其他:

  • 作者把审查模式分为:IP-based blocking , content-based blocking, blocking of protocols and circumvention tools.
  •  规避策略[38,43,63,83]: 1)client or server执行自定义的包控制规则,例如丢弃或者注入特定的包。2)基于隧道的规避方法。
  • Threat Model这块讲的很好,审查员对加阳率容忍度低;对假阴率容忍度高。
  • 多路复用可以增加识别难度
  • 尽管对于不同代理协议,TLS握手包长可能是不一样的。但是这种差异往往很小,通常在20-60字节之间。
  • X-TLS 和obfs4会填充额外的payload,对于这种情况,不进行分箱,只考虑方向,调整马氏距离,本方法仍然有一定的效果。
  • 作者提出的缓解方法:
    • 多路复用
    • 设计一个专用的混淆层

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/626293
推荐阅读
  

闽ICP备14008679号