当前位置:   article > 正文

使用xlnet实现中文文本分类 超详细(附代码)_xlnet使用

xlnet使用

**

使用xlnet实现中文文本分类

**

1、下载xlnet代码
https://github.com/zihangdai/xlnet
2、下载xlnet中文预训练模型
https://github.com/ymcui/Chinese-PreTrained-XLNet
3、训练数据的处理
新建一个文件夹,文件夹名字随意。在此处放置三个单独的文件:train.tsv dev.tsv和test.tsv。在train.tsv,dev.tsv没有标题,如下所示:第1列:行的ID(可以是计数,或者如果你不希望跟踪每个人,则每行甚至可以是相同的数字或字母),第2列:该行的标签为int。这些是分类器旨在预测的分类标签。第3列:所有字母均相同的列,因此您需要包括一个一次性的列。第4栏:您要分类的文本示例。
train.tsv和dev.tsv的示例:
在这里插入图片描述
test.tsv格式略有不同。它具有第1列:每个示例的ID,类似于train和dev文件中的第1列,以及第2列:要分类的文本。另外,test.tsv应该有一个标题行(而train和dev没有)。这是test.tsv的示例:
在这里插入图片描述
4、打开xlnet-master中的run_classifier.py文件,进行两处修改
1)新建一个mytask类,此类与已有的类并列即可;标签可以根据需要自定义。

class MyTaskProcessor(DataProcessor):
    def __init__(self):
        self.train_file = "train.tsv"
        self.dev_file = "dev.tsv"
        self.test_file = "test.tsv"
        self.label_column = 1
        self.text_a_column = 3
        self.text_b_column = None
        self.contains_header = True
        self.test_text_a_column = None
        self.test_text_b_column = None
        self.test_contains_header = True

    def get_train_examples(self, data_dir):
        """See base class."""
        return self._create_examples(
            self._read_tsv(os.path.join(data_dir, self.train_file)), "train")

    def get_dev_examples(self, data_dir):
        """See base class."""
        return self._create_examples(
            self._read_tsv(</
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/337064
推荐阅读
  

闽ICP备14008679号