赞
踩
本项目将演示如何通过五条标注样本进行模型微调,快速且准确抽取快递单中的姓名、电话、省、市、区、详细地址等内容,形成结构化信息。辅助物流行业从业者进行有效信息的提取,从而降低客户填单的成本。
如何从物流信息中抽取想要的关键信息呢?我们首先要定义好需要抽取哪些字段。
比如现在拿到一个快递单,可以作为我们的模型输入,例如“张三18625584663广东省深圳市南山区学府路东百度国际大厦”,那么序列标注模型的目的就是识别出其中的“张三”为人名,“18625584663”为电话名,“广东省深圳市南山区百度国际大厦”分别是『省、市、区、街道』4 级地址)。
这是一个典型的命名实体识别(Named Entity Recognition,NER)场景,各实体类型及相应符号表示见下表:
抽取实体/字段 | 抽取结果 |
---|---|
姓名 | 张三 |
电话 | 15209XX1921 |
省份 | 广东省 |
城市 | 深圳市 |
县区 | 南山区 |
详细地址 | 百度国际大厦 |
Universal Information Extraction (UIE):Yaojie Lu等人提出了开放域信息抽取的统一框架,这一框架在实体抽取、关系抽取、事件抽取、情感分析等任务上都有着良好的泛化效果。
PaddleNLP基于这篇工作的prompt设计思想,提供了以ERNIE为底座的信息抽取模型,用于关键信息抽取。同时,针对不同场景,支持通过构造小样本数据来优化模型效果,快速适配特定的关键信息配置。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。