赞
踩
**
**
1、下载xlnet代码
https://github.com/zihangdai/xlnet
2、下载xlnet中文预训练模型
https://github.com/ymcui/Chinese-PreTrained-XLNet
3、训练数据的处理
新建一个文件夹,文件夹名字随意。在此处放置三个单独的文件:train.tsv dev.tsv和test.tsv。在train.tsv,dev.tsv没有标题,如下所示:第1列:行的ID(可以是计数,或者如果你不希望跟踪每个人,则每行甚至可以是相同的数字或字母),第2列:该行的标签为int。这些是分类器旨在预测的分类标签。第3列:所有字母均相同的列,因此您需要包括一个一次性的列。第4栏:您要分类的文本示例。
train.tsv和dev.tsv的示例:
test.tsv格式略有不同。它具有第1列:每个示例的ID,类似于train和dev文件中的第1列,以及第2列:要分类的文本。另外,test.tsv应该有一个标题行(而train和dev没有)。这是test.tsv的示例:
4、打开xlnet-master中的run_classifier.py文件,进行两处修改
1)新建一个mytask类,此类与已有的类并列即可;标签可以根据需要自定义。
class MyTaskProcessor(DataProcessor): def __init__(self): self.train_file = "train.tsv" self.dev_file = "dev.tsv" self.test_file = "test.tsv" self.label_column = 1 self.text_a_column = 3 self.text_b_column = None self.contains_header = True self.test_text_a_column = None self.test_text_b_column = None self.test_contains_header = True def get_train_examples(self, data_dir): """See base class.""" return self._create_examples( self._read_tsv(os.path.join(data_dir, self.train_file)), "train") def get_dev_examples(self, data_dir): """See base class.""" return self._create_examples( self._read_tsv(</
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。