赞
踩
本项目提供通用场景下基于PaddleNLP的层次分类端到端应用方案。层次文本分类任务的中数据样本具有多个标签且标签之间存在特定的层级结构,目标是预测输入句子/文本可能来自于不同级标签类别中的某一个或几个类别。
以下是基于pytorch的层次分类:
https://blog.csdn.net/zhanghan11366/article/details/135731399
hierarchical/
├── few-shot # 小样本学习方案
├── retrieval_based # 语义索引方案
├── analysis # 分析模块
├── deploy # 部署
│ └── predictor # 离线部署
│ ├── paddle_serving # PaddleServing在线服务化部署
│ └── triton_serving # Triton在线服务化部署
├── train.py # 训练评估脚本
├── predict.py # 预测脚本
├── export_model.py # 静态图模型导出脚本
├── utils.py # 工具函数脚本
├── metric.py # metric脚本
├── prune.py # 裁剪脚本
└── README.md # 使用说明
我们以2020语言与智能技术竞赛:事件抽取任务抽取的多标签层次数据集为例,演示层次分类全流程方案使用。下载数据集:
wget https://paddlenlp.bj.bcebos.com/datasets/baidu_extract_2020.tar.gz
tar -zxvf baidu_extract_2020.tar.gz
mv baidu_extract_2020 data
rm baidu_extract_2020.tar.gz
conda create -n UTC_hierarchical python=3.7 pip=21.1.1
conda activate UTC_hierarchical
python3 -m pip install scikit-learn==1.0.2
pip install paddlenlp==2.4.8
python -m pip install paddlepaddle-gpu==2.3.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html
训练需要准备指定格式的标注数据集,如果没有已标注的数据集,可以参考 数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。