赞
踩
这篇是简历信息提取(二):HR救星!用UIE Taskflow快速完成简历信息批量抽取的学习笔记
目录
第一篇文章简历信息提取(一)介绍的是,怎么样把简历图片中的文本【全文】提取出来。
这篇文章是在第一篇的基础之上,有了简历文本之后,怎么样提取关键信息。比如抽取,姓名、年龄、学校这样的关键信息。
这里主要介绍,有了简历文本之后,如何使用paddlenlp里面的uie功能,实现关键信息抽取。例如有一段简历文本:“姓名:小李,性别:男,出生日期:2000年04月,民族:汉族,联系电话:13602173xxx”
想要抽取出的关键信息是:
这里介绍了,使用PaddleNLP中的UIE相关工具包可以实现此功能。所以要安装相关环境。
需要安装PaddleNLP
先安装 paddlepaddle,我安装的是paddlepaddle 2.3.2
注意,这里有一个坑,我的电脑系统是mac os 10.15.7,安装最新版本 paddlepaddle报错:
- Error: Can not import paddle core while this file exists: /Users/username/env/lib/python3.8/site-packages/paddle/fluid/libpaddle.so
似乎最新版本的 paddlepaddle (2.5.1) 是为 MacOS 13 构建的,而我有 MacOS 10.15,因此它不起作用。我安装了 paddlepaddle (2.3.2) 并且能够正确使用 paddleOCR 。
# 安装语句
# 新建conda
conda create -n paddle_env python=3.8
conda activate paddle_env
conda install paddlepaddle==2.3.2 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/
# 进入python检查是否安装成功
python3
import paddle
paddle.utils.run_check()
# Success!
再安装 paddlenlp,我安装的是paddlenlp==2.4.2
# 安装paddlenlp
pip install paddlenlp==2.4.2
# 安装过程中 提示paddle-bfloat 缺少一个版本,进行安装
pip install paddle-bfloat==0.1.7
# 重新安装paddlenlp
paddlenlp pip install paddlenlp==2.4.2
官方使用说明文档见 PaddleNLP一键预测功能:Taskflow API
安装了paddlenlp之后,就可以调用相关函数实现关键词抽取功能,代码在文章中有,我就不再粘贴了。
目标:输入一段文本,返回关键信息。
调用的函数:paddlenlp ——Taskflow ,实际上是用的是paddlenlp 的UIE功能。
我这里对两句话做一个实践:
序号 | 简历文本 | 抽取结果-关键信息 |
---|---|---|
1 | “姓名:小李,性别:男,出生日期:2000年04月,民族:汉族,联系电话:13602173xxx” | |
2 | 小李男2000年04月汉族13602173xxx | |
在1.2节的后半部分,是一个实践,首先从word格式(表格)的简历中提取文本信息,然后进行实体抽取:
python-docx
方法,参考 简历信息提取(一):PDFPlumber和PP-Structure 中介绍的方法。1.2节 介绍的是 实际上是用的是paddlenlp 的UIE功能。
1.3节 介绍了paddlenlp 的 UIE-X, 是UIE的升级版本,可以支持图片类型输入。 详细参考 UIE升级点解读:新增文档信息抽取能力,基于Prompt的小样本能力厉害了!OCR、版面分析、信息抽取一应俱全
注意,paddlenlp 的 UIE-X 需要PaddleNLP v2.5 以上
遗留问题:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。