当前位置:   article > 正文

文本挖掘day6 基于文本挖掘的化工事故致因网络分析_文本挖掘归并词

文本挖掘归并词

1 化工事故数据来源及处理

采用文本挖掘技术对化工事故报告文本特征进行挖掘,采用TF-IDF算法对文本特征赋予权重,提取事故特征,并根据人因分析和分类系统( human factors analysis and classification system,HFACS)模型将事故致因分成4个层级。其次,利用Apriori算法提取事故特征之间的强关联规则。最后,计算关键词共现矩阵,在此基础上构建一个化工事故致因网络,通过网络中心性分析得到核心事原因,进而通过核结构分析化 工事征的聚性。文本挖掘技术与网络构建分析如图1所示。

image-20230925095332888

2 化工事故报告文本挖掘

2.1 事故影响因素词表构建

选用 Python 作为文本挖掘的程序语言,使用Jieba 中文分词模块对语料库进行分词处理。为了丰富语料库中的化工安全领域专业词汇,避免分词模块无法识别专业词汇,以及减少无关词汇的干扰,在进行文本分词之前自定义化工安全专业词库、停用词表和归并词表,并使用 Jieba 中文分词模块加载更新词库。

由于不同事故报告中对相同含义的事故致因描述并不是完全一致,导致分词结束后会出现大量含义相同但表述不一样的词汇,因此构建同义词归并词表,将不同表述的同一事故致因替换成相同的词汇,避免同一事故致因由于表述不同而被忽略,影响文本挖掘准确性。

image-20230925101323747

2.2 化工事故特征的词云分析

利用经过数据清洗并分词所得到的语料库来制作词云图。事故特征的词云分析如图 2 所示。词云图中,词的文字越大,且越处于中间位置,表明其词的频数越大。

image-20230925101429411

2.3 化工事故特征关键词提取

特征词出现的频率在一定程度上表明其重要性,仅根据词频不能准确反映词的重要性,因此引入 TF - IDF 算法赋予特征词权重。TF - IDF 算法不同于简单的词频统计,可以更准确地量化某个字词在一份文件中的重要性。

image-20230925124247336

image-20230925124301808

根据词云图结果剔除“记录”、“系统”等与事故致因主题不符的词汇,并用 TF - IDF 算法计算词语的权重,提取出权重值大小排名前38 的事故特征,包括4 个层级的 33 个事故致因关键词和 5种事故类型,结果如表 2 所示。

image-20230925101655019

image-20230925101703651

2.4 化工事故致因关联分析

关联规则分析可以挖掘多个因素之间的关联关系,应用Apriori 算法挖掘化工事故致因之间的强关联规则。根据Apriori 算法分析的要求,最小支持度设为0. 06,最小置信度设为 0. 8,最小提升度设为1。共挖掘出 175 条强关联规则,反映了化工事故致因之间的密切联系,部分关联规则如表3 所示。

image-20230925124447590

先说明挖掘到的关联规则,再对这些规则为什么是这样联系做解释,最后再适当总结,over

3 化工事故致因网络的构建与分析

3.1 化工事故致因网络构建

计算 38 个事故特征在不同语料库中的共现频率,如同一组关键词在一个事故调查报告中出现多次,记为共现一次,最终得到化工事故特征的共现矩阵如表 4 所示。若2 个特征共现值越大则其关联性越强,根据构建的化工事故特征共现矩阵,使用 Pajek 和 VOSviewer 软件绘制化工事故致因网络如图 3 所示。

image-20230925124808095

化工事故致因网络图中节点表示化工事故特征,节点间连线表示各事故特征之间的关系。节点越大表明该事故特征在整个语料库中出现的频数越大,对事故影响越大; 节点间连线越粗、越密集表示事故特征之间联系越紧密。

3.2 小世界特性分析

什么叫小世界,可以点击查看这篇博客:复杂网络入门详解 适用于初学者;本文使用 Pajek 软件计算得到化工事故致因网络的平均最短路径为 1.07;聚类系数值均大于0.9,远高于同等规模的随机网络聚类系数值。说明该化工生产事故致因网络中各节点之间平均每两个节点之间都有联系,网络平均最短路径长度小,聚类系数大,表明该化工事故致因网络具有小世界特性

3.3 网络中心性分析

对化工事故致因网络中节点的中心性分析可以用来衡量关键词在网络中的重要性,计算网络中心性的指标主要有度中心性、中介中心性和接近中心性。各事故特征的中心性如表 5 所示。

image-20230925125152306

3.4 凝聚特性分析

节点的凝聚性可以反映网络中节点的关联性,在凝聚子群中,节点之间具有相对较强而直接的纽带联系,节点之间的连线越多,结构越稳定,凝聚性越强。采用 k -核分解方法来挖掘化工事故特征的凝聚子群,用以分析各事故特征之间的凝聚性。

对事故特征网络进行凝聚特性分析可以同时分析核心致因与其联系紧密的边缘致因,因此可以针对性地控制核心风险因素和边缘风险因素之间的相互影响,防止进一步演化成事故

k -核分解过程是从外层向内层延伸式扩展进行的,最小核节点通常位于网络最外层,最大核节点位于网络的最内层。k - 核节点频数分布如表6 所示,共分成 11 个子类,化工事故 k -核结构如图4 所示。

image-20230925125438568

image-20230925125457314

4 化工事故致因分析结果与预防措施

根据上述化工事故致因分析,以 HFACS 模型为基础,从不安全行为、不安全行为的前提条件、不安全监管和组织影响4 个层面提出以下预防建议。

  1. 在不安全行为层面,未落实安全生产责任制、违法建设、违章作业、无资质或无证作业等事故致因具有较高的权重。因此,企业应完善并落实安全生产责任制,严查违规违章作业,坚决制止无资质或无证作业行为,同时建立更完善的奖惩制度,督促作业人员遵守安全操作规程,减少不安全行为。

  2. 在不安全行为的前提条件层面,事故因素主要集中在危化品、泄漏、安全意识淡薄等方面。因此,应定期对操作人员和管理人员进行安全教育培训,同时注重企业安全文化建设,营造良好的安全文化氛围,切实提高作业人员安全意识。

  3. 在不安全监管层面,监管不到位、安全管理混乱、安全教育培训不到位等事故致因权重都较大,表明不安全监管层级是化工事故的关键成因。因此企业应加强安全管理部门的建设,完善安全管理制度,加强监管力度。同时,政府部门应加强对企业的监督管理力度,并督促企业重视安全管理工作。

  4. 在组织影响层面,履职不到位、应急处置能力、操作规程缺陷等事故致因具有较高权重。生产过程中相关程序、标准、制度不完善会导致履职不到位和应急处置能力不足等相关致因出现,进而影响安全检查工作的顺利进行和应对突发状况的能力。因此,企业应制定完善的操作规程和应急预案,并对作业人员培训,确保作业人员完全掌握; 生产过程中相关人员应履职到位,在管理制度中加入奖惩制度以鼓励各责任人履职到位,全面落实安全生产责任。

5 结论

  1. 使用文本挖掘技术可以从大量事故报告文本数据中识别出化工事故关键致因,提高工作效率,并将文本挖掘结果可视化,绘制词云图和构建事故致因网络,直观反映出化工事故的关键致因; 关联规则分析可以挖掘出事故致因之间的强关联性。
  2. 使用社会网络分析技术可以对化工事故致因网络的整体结构、规模和网络中各节点的结构特性进行深入分析,确定化工事故关键致因和风险传播路径。关键事故致因的确定,有助于针对性地提出化工事故预防控制措施,及时排查事故隐患并阻断风险传播路径。
  3. 构建了化工事故致因网络,并对化工事故致因之间的影响关系进行了分析,以HFACS 模型为基础,从不安全行为、不安全行为的前提条件、不安全监管和组织影响 4 个层面提出化工事故预防措施。但缺少对不同化工事故发生的灾害损失进行量化,今后可以结合社会网络分析技术和灾害损失度量模型,进一步对化工事故风险进行量化。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/333216
推荐阅读
相关标签
  

闽ICP备14008679号