当前位置:   article > 正文

一种软硬件结合的大数据访存踪迹收集分析工具集

访存测试集

一种软硬件结合的大数据访存踪迹收集分析工具集

李作骏1,2, 潘海洋1,2, 陈明宇1,2, 包云岗1,2

1 中国科学院大学,北京 100049

2 中国科学院计算技术研究所先进计算机系统研究中心,北京 100190

摘要以Spark为代表的内存计算框架的兴起、新型非易失性内存研究的逐步深入以及数据安全形势的日益严峻,使得现有的访存行为分析工具无法满足对大数据应用访存行为进行分析的需求。提出了一种软硬件结合的大数据访存踪迹收集分析工具集,在由硬件收集的基本访存踪迹的基础上,结合软件信息同步及离线标注的方式,可以高速、准确、无失真地获取具备丰富语义信息的访存行为信息,且为大数据访存的实时安全监控提供了一种实现方式。最后,通过实验对一组真实的大数据应用进行了访存踪迹采集和分析。

关键词访存踪迹 ; 访存行为 ; 大数据

640?wx_fmt=jpeg

论文引用格式:

李作骏, 潘海洋, 陈明宇, 包云岗. 一种软硬件结合的大数据访存踪迹收集分析工具集. 大数据[J], 2019, 5(4):41-49

LI Z J, PAN H Y, CHEN M Y, BAO Y G.A hybrid memory trace collection and analysis toolkit for big data applications. Big Data Research[J], 2019, 5(4): 41-49

640?wx_fmt=jpeg

1 引言

在现代计算机系统中,对于大数据、云计算这类以“数据”为核心的应用负载程序而言,“数据”本身已经取代传统的“计算”,成为影响系统性能的关键特征。这就使得有效地设计数据的组织和访问模式成为提升系统性能的关键,而数据的组织和访问模式在整个计算机系统结构中的关键点之一就是数据在中央处理器内部(高速缓存)以及外部存储器(内存)的存储和读写行为方式。因此,获取并分析大数据应用本身的访存行为特征已成为实现高效设计的前提。

以Spark为代表的内存计算框架的兴起,导致大量的计算中间结果被缓存于内存中,现有的基于程序流的调试和分析工具显然已经无法对这类数据流与程序流分离、并包含大量随机与不规则数据访问的大数据应用进行有效的分析。此外,非易失性内存在一些大数据系统研究中的逐步应用,需要对整个计算机的访存系统进行重新评估和设计,而目前普遍缺少基于大量应用访存行为模式并且能够对新型内存系统进行分析、预测和总结的工具。值得注意的是,大数据领域的信息安全对各大互联网企业以及政府机构的影响日渐突出,传统的基于等级保护和程序审查的方式已无法阻止数据通过病毒、木马或漏洞攻击被窃取或修改了,最终的“数据”安全必须能够实时监控到系统中的关键数据在何时以何种方式被访问、修改以及被何人修改等。这就要求有一种方式可以实时监控系统中数据被访问的全过程,并且及时做出安全防护动作。

目前,国内外可用的测量和分析方法有两类:一类是纯软件的“植入式”工具或模拟平台,另一类是纯硬件的物理信号采集。软件方法(如DRAMSim2、Simics 、gem5 、CMP$IM 、MARSSx86等软件模拟器)虽然可以获取含有丰富语义信息的访存踪迹信息,但是其模拟速度通常低于实际运行速度的千

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/340999
推荐阅读
相关标签
  

闽ICP备14008679号