赞
踩
主要是参考网上资源针对多标签分类大概描述,主要是数据集评估方法, 网上开源代码阅读, 多标签分类主要问题描述
衡量多标签程度自然方式: 即样本平均标签数。
标签密度用标签集大小来规范化标签基数
标签多样性: 数据集中不同标签集合的数量,可以用数据及大小规范化。
(2)标签具有相互关系
源码: https://github.com/hellonlp/classifier_multi_label
sigmod 的输出shape与y shape一样, 输出的每一位与y中的每一位做交叉熵,然后取概率值 >0.5的值。默认y的shape为[1, tag_size], tag_size为候选tag的数目。
softmax 的输出shape 为[,1]
ASL :
正样本loss 与负样本损失loss 进行隔离。
Asymmetric Loss For Multi-Label Classification)
https://www.cxyzjd.com/article/u010626747/113241655 —code
few shot
few-shot 的训练集中包含了很多的类别,每个类别中有多个样本。在训练阶段,会在训练集中随机抽取 C 个类别,每个类别 K 个样本(总共 CK 个数据),构建一个 meta-task,作为模型的支撑集(support set)输入;再从这 C 个类中剩余的数据中抽取一批(batch)样本作为模型的预测对象(batch set)。即要求模型从 C*K 个数据中学会如何区分这 C 个类别,这样的任务被称为 C-way K-shot 问题
参考:https://baijiahao.baidu.com/s?id=1629626559555746572&wfr=spider&for=pc
https://cloud.tencent.com/developer/article/1449734
https://github.com/javaidnabi31/Multi-Label-Text-classification-Using-BERT/blob/master/multi-label-classification-bert.ipynb
https://colab.research.google.com/github/rap12391/transformers_multilabel_toxic/blob/master/toxic_multilabel.ipynb#scrollTo=uDLZmEC_oKo3
多标签label不均衡
https://nextstart.online/2021/05/30/ASL/(Asymmetric Loss For Multi-Label Classification)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。