python自然语言处理-bert实战_文本分类实战（十）—— BERT 预训练模型

作者：小小林熬夜学编程 | 2024-04-21 07:35:39

踩

pythonbert模型

1 大纲概述

文本分类这个系列将会有十篇左右，包括基于word2vec预训练的文本分类，与及基于最新的预训练模型(ELMo，BERT等)的文本分类。总共有以下系列：

2 数据集

数据集为IMDB 电影影评，总共有三个数据文件，在/data/rawData目录下，包括unlabeledTrainData.tsv，labeledTrainData.tsv，testData.tsv。在进行文本分类时需要有标签的数据(labeledTrainData)，数据预处理如文本分类实战(一)—— word2vec预训练词向量中一样，预处理后的文件为/data/preprocess/labeledTrain.csv。

3 BERT预训练模型

BERT 模型来源于论文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。BERT模型是谷歌提出的基于双向Transformer构建的语言模型。BERT模型和ELMo有大不同，在之前的预训练模型(包括word2vec，ELMo等)都会生成词向量，这种类别的预训练模型属于domain transfer。而近一两年提出的ULMFiT，GPT，BERT等都属于模型迁移。

BERT 模型是将预训练模型和下游任务模型结合在一起的，也就是说在做下游任务时仍然是用BERT模型，而且天然支持文本分类任务，在做文本分类任务时不需要对模型做修改。谷歌提供了下面七种预训练好的模型文件。

BERT模型在英文数据集上提供了两种大小的模型，Base和Large。Uncased是意味着输入的词都会转变成小写，cased是意味着输入的词会保存其大写(在命名实体识别等项目上需要)。Multilingual是支持多语言的，最后一个是中文预训练模型。

在这里我们选择BERT-Base，Uncased。下载下来之后是一个zip文件，解压后有ckpt文件，一个模型参数的json文件，一个词汇表txt文件。

在应用BERT模型之前，我们需要去github上下载开源代码，我们可以直接clone下来，在这里有一个run_classifier.py文件，在做文本分类项目时，我们需要修改这个文件，主要是添加我们的数据预处理类。clone下来的项目结构如下：

在run_classifier.py文件中有一个基类DataProcessor类，其代码如下：

classDataProcessor(object):"""Base class for data converters for sequence classification data sets."""

defget_train_examples(self, data_dir):""

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/461821