当前位置:   article > 正文

NLP之使用NLP和基于规则的技术进行布局感知的简历解析_简历解析模型训练

简历解析模型训练

Layout Aware Resume Parsing Using NLP and Rule-based Techniques

第二章 NLP之《使用NLP和基于规则的技术进行布局感知的简历解析》



前言

语音新手入门,学习读懂论文。
本文发表在2023第八届国际信息技术研究会议(ICITR),机构是信息技术学院斯里兰卡莫拉图瓦大学
在这里插入图片描述


一、任务

本文介绍了一种基于自然语言处理和基于规则技术的布局感知的简历解析系统,用于从简历中提取分段文本内容。该输出可以作为简历内容评分模型的输入,作为简历内容审查系统,以获得对简历的反馈。

二、动机

在过去的研究工作中,简历解析的方法有很多,但都有一定的局限性。然而,由于简历是高度结构化的文件,仅仅提取内容是不够的,还需要注意布局。通过研究发现,目前还没有一个系统能够对基于章节的内容进行整体的提取。相反,现有系统所做的只是从整个部分中提取突出的短语。

三、挑战

四、方法

1.框架图

在这里插入图片描述
在第一种方法中,应聘者上传简历到系统后,使用python语言和库提取上传简历中的所有文本内容。此外,一些重要的实体,如电子邮件、链接和电话号码,也已经使用一些基于规则的技术(如正则表达式)和spaCy NER进行了提取。为了从简历中获取个人账号链接,系统使用元数据提取方法。
在这里插入图片描述

2.

第二个任务是创建数据集并实现分类模型。第一个目标是为多类分类模型注释和创建所需的数据集,系统需要这些数据集来预测给定内容的部分。注释过程使用Label Studio软件,并将最终注释的数据与相关图像文件一起导出为JSON文件,其中包含所有注释细节及其位置坐标和相关部分类别标签详情。使用基本的NLP技术对数据集进行了清理
创建了所需的数据集之后,第二阶段的主要目标是构建一个多类别分类模型,该模型能够预测给定内容的部分类别。在训练阶段,使用包含注释的文本内容和部分信息的数据集来训练该模型。这是一个多类别分类问题,因为当前问题中有多个类别需要预测。作为第一步,使用 Pandas Python 库读取数据集,然后从 DataFrame 中删除所有不必要的列。系统使用带有支持向量机算法的 SGDClassifier(随机梯度下降分类器)。在这里插入图片描述

3.

第三个任务是用算法划分简历的分段,从简历中提取分段数据。在实现部分预测模型之后,为了准确预测简历中给定文本的部分,系统需要检测布局并区分段落。为了实现这一目标,系统采用了一种有效的算法,利用简历文档中单词框之间的间距。通过分析单词框之间的间距,系统将识别文本中的自然断点,表明段落边界的存在。
这种方法是布局解析器,即利用前一阶段获取的边界框和这些边界框之间的间距。系统建立了一个阈值,通过仔细审查边界框的位置信息并考虑它们之间的间隙,来指示间距是否足够显著,以表明一个段落的开始和另一个段落的结束。通过这一算法,系统成功地勾画出简历中的各种段落。

一旦识别了简历中的不同段落,系统就会自动将训练好的多类别分类模型应用于每个段落,基本上为每个段落分配适当的部分。在这一步骤中,每个段落的内容都将被精确分类到个人信息、教育背景、工作经验或能力等类别中,利用机器学习的力量。

4.

五、实验评价

1.简历部分多分类模型的评价

在这里插入图片描述
该系统将能够评估模型在许多领域的表现,如个人资料、教育、项目、推荐人、奖励和责任以及兴趣,通过分别计算每个部分的f1分数。F1-Score通过同时考虑精度和召回率,对模型的每个部分的分类精度进行了准确的评估。就每个部分的f1分数而言,SGDClassifier支持向量机始终优于多项式朴素贝叶斯分类器。
在这里插入图片描述
使用SGDClassifier的支持向量机显示出更高的准确性、精密度和召回值,从而在不同的简历部分中获得更好的总体f1分数。

2.余弦相似度

在这里插入图片描述

余弦相似度度量用于评价提取的相关剖面与实际剖面内容的接近程度,以评价系统的准确性和有效性。系统通过将提取的部分内容的文本表示与实际的部分内容进行对比,确定一组简历的余弦相似度得分。

3.客观评价

4.主观评价


六、结论

该系统仔细考虑了简历的格式。通过采用分段式文本内容提取方法,保证了提取内容的准确性和全面性。值得注意的是,当处理具有非常规布局或复杂格式的简历时,系统可能会遇到困难。深度学习技术的结合,再加上对广泛而多样的数据集的访问,为改进系统的准确性和适应性提供了巨大的潜力。

七、知识小结

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/845511
推荐阅读
相关标签
  

闽ICP备14008679号