赞
踩
文本预处理及其作用:文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.
命名实体识别
分词(tokenization)
拼写纠错(Spell Correction)
过滤词【停用词、低频词】
单词的标准化(Stemming)
词性标注
字符串文本的序列化、向量化
文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择.
常用的几种文本数据分析方法:
将基于真实的中文酒店评论语料来讲解常用的几种文本数据分析方法.
属于二分类的中文情感分析语料, 该语料存放在"./cn_data"目录下.
其中train.tsv代表训练集, dev.tsv代表验证集, 二者数据样式相同.
train.tsv数据样式:
sentence label
早餐不好,服务不到位,晚餐无西餐,早餐晚餐相同,房间条件不好,餐厅不分吸烟区.房间不分有无烟房. 0
去的时候 ,酒店大厅和餐厅在装修,感觉大厅有点挤.由于餐厅装修本来该享受的早饭,也没有享受(他们是8点开始每个房间送,但是我时间来不及了)不过前台服务员态度好! 1
有很长时间没有在西藏大厦住了,以前去北京在这里住的较多。这次住进来发现换了液晶电视,但网络不是很好,他们自己说是收费的原因造成的。其它还好。 1
非常好的地理位置,住的是豪华海景房,打开窗户就可以看见栈桥和海景。记得很早以前也住过,现在重新装修了。总的来说比较满意,以后还会住 1
交通很方便,房间小了一点,但是干净整洁,很有香港的特色,性价比较高,推荐一下哦 1
酒店的装修比较陈旧,房间的隔音,主要是卫生间的隔音非常差,只能算是一般的 0
酒店有点旧,房间比较小,但酒店的位子不错,就在海边,可以直接去游泳。8楼的海景打开窗户就是海。如果想住在热闹的地带,这里不是一个很好的选择,不过威海城市真的比较小,打车还是相当便宜的。晚上酒店门口出租车比较少。 1
位置很好,走路到文庙、清凉寺5分钟都用不了,周边公交车很多很方便,就是出租车不太爱去(老城区路窄爱堵车),因为是老宾馆所以设施要陈旧些, 1
酒店设备一般,套房里卧室的不能上网,要到客厅去。 0
train.tsv数据样式说明:train.tsv中的数据内容共分为2列, 第一列数据代表具有感情色彩的评论文本; 第二列数据, 0或1, 代表每条文本数据是积极或者消极的评论, 0代表消极, 1代表积极。
获得训练集和验证集的标签数量分布
# 导入必备工具包 import seaborn as sns import pandas as pd import matplotlib.pyplot as plt # 设置显示风格 plt.style.use('fivethirtyeight') # 分别读取训练tsv和验证tsv train_data = pd.read_csv("./cn_data/train.tsv", sep="\t") valid_data = pd.read_csv("./cn_data/dev.tsv", sep="\t") # 获得训练数据标签数量分布 sns.countplot("label", data=train_data) plt.title("train_data") plt.show() # 获取验证数据标签数量分布 sns.countplot("label", data=valid_data) plt.title("valid_data") plt.show()
训练集标签数量分布:
验证集标签数量分布:
在深度学习模型评估中, 我们一般使用ACC作为评估指标, 若想将ACC的基线定义在50%左右, 则需要我们的正负样本比例维持在1:1左右, 否则就要进行必要的数据增强或数据删减. 上图中训练和验证集正负样本都稍有不均衡, 可以进行一些数据增强.
# 在训练数据中添加新的句子长度列, 每个元素的值都是对应的句子列的长度 train_data["sentence_length"] = list(map(lambda x: len(x), train_data["sentence"])) # 绘制句子长度列的数量分布图 sns.countplot("sentence_length", data=train_data) # 主要关注count长度分布的纵坐标, 不需要绘制横坐标, 横坐标范围通过dist图进行查看 plt.xticks([]) plt.show() # 绘制dist长度分布图 sns.distplot(train_data["sentence_length"]) # 主要关注dist长度分布横坐标, 不需要绘制纵坐标 plt.yticks([]) plt.show() # 在验证数据中添加新的句子长度列, 每个元素的值都是对应的句子列的长度 valid_data["sentence_length"] = list(map(lambda x: len(x), valid_data["sentence"])) # 绘制句子长度列的数量分布图 sns.countplot("sentence_length", data=valid_data) # 主要关注count长度分布的纵坐标, 不需要绘制横坐标, 横坐标范围通过dist图进行查看 plt.xticks([]) plt.show() # 绘制dist长度分布图 sns.distplot(valid_data["sentence_length"]) # 主要关注dist长度分布横坐标, 不需要绘制纵坐标 plt.yticks([]) plt.show()
训练集句子长度分布:
验证集句子长度分布:
通过绘制句子长度分布图, 可以得知我们的语料中大部分句子长度的分布范围, 因为模型的输入要求为固定尺寸的张量,合理的长度范围对之后进行句子截断补齐(规范长度)起到关键的指导作用. 上图中大部分句子长度的范围大致为20-250之间.
# 绘制训练集长度分布的散点图
sns.stripplot(y='sentence_length',x='label',data=train_data)
plt.show()
# 绘制验证集长度分布的散点图
sns.stripplot(y='sentence_length',x='label',data=valid_data)
plt.show()
训练集上正负样本的长度散点分布:
验证集上正负样本的长度散点分布:
通过查看正负样本长度散点图, 可以有效定位异常点的出现位置, 帮助我们更准确进行人工语料审查. 上图中在训练集正样本中出现了异常点, 它的句子长度近3500左右, 需要我们人工审查.
# 导入jieba用于分词
# 导入chain方法用于扁平化列表
import jieba
from itertools import chain
# 进行训练集的句子进行分词, 并统计出不同词汇的总数
train_vocab = set(chain(*map(lambda x: jieba.lcut(x), train_data["sentence"])))
print("训练集共包含不同词汇总数为:", len(train_vocab))
# 进行验证集的句子进行分词, 并统计出不同词汇的总数
valid_vocab = set(chain(*map(lambda x: jieba.lcut(x), valid_data["sentence"])))
print("训练集共包含不同词汇总数为:", len(valid_vocab))
输出效果:
训练集共包含不同词汇总数为: 12147
训练集共包含不同词汇总数为: 6857
# 使用jieba中的词性标注功能 import jieba.posseg as pseg def get_a_list(text): """用于获取形容词列表""" # 使用jieba的词性标注方法切分文本,获得具有词性属性flag和词汇属性word的对象, # 从而判断flag是否为形容词,来返回对应的词汇 r = [] for g in pseg.lcut(text): if g.flag == "a": r.append(g.word) return r # 导入绘制词云的工具包 from wordcloud import WordCloud def get_word_cloud(keywords_list): # 实例化绘制词云的类, 其中参数font_path是字体路径, 为了能够显示中文, # max_words指词云图像最多显示多少个词, background_color为背景颜色 wordcloud = WordCloud(font_path="./SimHei.ttf", max_words=100, background_color="white") # 将传入的列表转化成词云生成器需要的字符串形式 keywords_string = " ".join(keywords_list) # 生成词云 wordcloud.generate(keywords_string) # 绘制图像并显示 plt.figure() plt.imshow(wordcloud, interpolation="bilinear") plt.axis("off") plt.show() # 获得训练集上正样本 p_train_data = train_data[train_data["label"]==1]["sentence"] # 对正样本的每个句子的形容词 train_p_a_vocab = chain(*map(lambda x: get_a_list(x), p_train_data)) #print(train_p_n_vocab) # 获得训练集上负样本 n_train_data = train_data[train_data["label"]==0]["sentence"] # 获取负样本的每个句子的形容词 train_n_a_vocab = chain(*map(lambda x: get_a_list(x), n_train_data)) # 调用绘制词云函数 get_word_cloud(train_p_a_vocab) get_word_cloud(train_n_a_vocab)
训练集正样本形容词词云:
训练集负样本形容词词云:
# 获得验证集上正样本 p_valid_data = valid_data[valid_data["label"]==1]["sentence"] # 对正样本的每个句子的形容词 valid_p_a_vocab = chain(*map(lambda x: get_a_list(x), p_valid_data)) #print(train_p_n_vocab) # 获得验证集上负样本 n_valid_data = valid_data[valid_data["label"]==0]["sentence"] # 获取负样本的每个句子的形容词 valid_n_a_vocab = chain(*map(lambda x: get_a_list(x), n_valid_data)) # 调用绘制词云函数 get_word_cloud(valid_p_a_vocab) get_word_cloud(valid_n_a_vocab)
验证集正样本形容词词云:
验证集负样本形容词词云:
根据高频形容词词云显示, 我们可以对当前语料质量进行简单评估, 同时对违反语料标签含义的词汇进行人工审查和修正, 来保证绝大多数语料符合训练标准. 上图中的正样本大多数是褒义词, 而负样本大多数是贬义词, 基本符合要求, 但是负样本词云中也存在"便利"这样的褒义词, 因此可以人工进行审查.
文本特征处理包括为语料添加具有普适性的文本特征, 如:n-gram特征, 以及对加入特征之后的文本语料进行必要的处理, 如: 长度规范. 这些特征处理工作能够有效的将重要的文本特征加入模型训练中, 增强模型评估指标.
常见的文本特征处理方法:
前面我们说,句子可以用单个字,词来表示,但是有的时候,我们可以用2个、3个或者多个词来表示。
N-gram: 用连续的N个token作为一个特征。N往往取2、3。这样考虑了句子中词汇的顺序。
N-gram
一组一组的词语,其中的N
表示能够被一起使用的词的数量。
给定一段文本序列, 其中n个词或字的相邻共现特征即n-gram特征, 常用的n-gram特征是bi-gram和tri-gram特征, 分别对应n为2和3。
如果n≥4,将极大地增加计算压力,即使是大集群也无法处理4元以上的n-gram特征处理,这是世界性难题。
举个栗子:
假设给定分词列表: ["是谁", "敲动", "我心"] 对应的数值映射列表为: [1, 34, 21] 我们可以认为数值映射列表中的每个数字是词汇特征. 除此之外, 我们还可以把"是谁"和"敲动"两个词共同出现且相邻也作为一种特征加入到序列列表中, 假设1000就代表"是谁"和"敲动"共同出现且相邻 此时数值映射列表就变成了包含2-gram特征的特征列表: [1, 34, 21, 1000] 这里的"是谁"和"敲动"共同出现且相邻就是bi-gram特征中的一个. "敲动"和"我心"也是共现且相邻的两个词汇, 因此它们也是bi-gram特征. 假设1001代表"敲动"和"我心"共同出现且相邻 那么, 最后原始的数值映射列表 [1, 34, 21] 添加了bi-gram特征之后就变成了 [1, 34, 21, 1000, 1001]
提取n-gram特征:
# 一般n-gram中的n取2或者3, 这里取2为例 ngram_range = 2 def create_ngram_set(input_list): """ description: 从数值列表中提取所有的n-gram特征 :param input_list: 输入的数值列表, 可以看作是词汇映射后的列表, 里面每个数字的取值范围为[1, 25000] :return: n-gram特征组成的集合 eg: create_ngram_set([1, 4, 9, 4, 1, 4]) >>> {(4, 9), (4, 1), (1, 4), (9, 4)} """ return set(zip(*[input_list[i:] for i in range(ngram_range)])) input_list = [1, 3, 2, 1, 5, 3] # 调用create_ngram_set res = create_ngram_set(input_list) print("res = {0}".format(res))
输出结果:
# 该输入列表的所有bi-gram特征
res = {(3, 2), (1, 3), (2, 1), (1, 5), (5, 3)}
在传统的机器学习中,使用N-gram方法往往能够取得非常好的效果,但是在深度学习比如RNN中会自带N-gram的效果。
一般模型的输入需要等尺寸大小的矩阵, 因此在进入模型前需要对每条文本数值映射后的长度进行规范, 此时将根据句子长度分布分析出覆盖绝大多数文本的合理长度, 对超长文本进行截断, 对不足文本进行补齐(一般使用数字0), 这个过程就是文本长度规范.
from keras.preprocessing import sequence # cutlen根据数据分析中句子长度分布,覆盖90%左右语料的最短长度. # 这里假定cutlen为10 cutlen = 10 def padding(x_train): """ description: 对输入文本张量进行长度规范 :param x_train: 文本的张量表示, 形如: [[1, 32, 32, 61], [2, 54, 21, 7, 19]] :return: 进行截断补齐后的文本张量表示 """ # 使用sequence.pad_sequences即可完成 return sequence.pad_sequences(x_train, cutlen) # 调用:假定x_train里面有两条文本, 一条长度大于10, 一天小于10 x_train = [[1, 23, 5, 32, 55, 63, 2, 21, 78, 32, 23, 1], [2, 32, 1, 23, 1]] res = padding(x_train) print("res = {0}".format(res))
打印结果:
res = [[ 5 32 55 63 2 21 78 32 23 1]
[ 0 0 0 0 0 2 32 1 23 1]]
回译数据增强目前是文本数据增强方面效果较好的增强方法。
一般基于google翻译接口, 将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言, 即可认为得到与与原语料同标签的新语料, 新语料加入到原数据集中即可认为是对原数据集数据增强.
回译数据增强优势:操作简便, 获得新语料质量高。
回译数据增强存在的问题:在短文本回译过程中, 新语料与原语料可能存在很高的重复率, 并不能有效增大样本的特征空间。
高重复率解决办法:进行连续的多语言翻译, 如: 中文–>韩文–>日语–>英文–>中文, 根据经验, 最多只采用3次连续翻译, 更多的翻译次数将产生效率低下, 语义失真等问题。
# 假设取两条已经存在的正样本和两条负样本 # 将基于这四条样本产生新的同标签的四条样本 p_sample1 = "酒店设施非常不错" p_sample2 = "这家价格很便宜" n_sample1 = "拖鞋都发霉了, 太差了" n_sample2 = "电视不好用, 没有看到足球" # 导入google翻译接口工具 from googletrans import Translator # 实例化翻译对象 translator = Translator() # 进行第一次批量翻译, 翻译目标是韩语 translations = translator.translate([p_sample1, p_sample2, n_sample1, n_sample2], dest='ko') # 获得翻译后的结果 ko_res = list(map(lambda x: x.text, translations)) # 打印结果 print("中间翻译结果:") print("ko_res = {0}".format(ko_res )) # 最后在翻译回中文, 完成回译全部流程 translations = translator.translate(ko_res, dest='zh-cn') cn_res = list(map(lambda x: x.text, translations)) print("回译得到的增强数据:") print("cn_res = {0}".format(cn_res))
打印结果:
中间翻译结果:
ko_res = ['호텔 시설은 아주 좋다', '이 가격은 매우 저렴합니다', '슬리퍼 곰팡이가 핀이다, 나쁜', 'TV가 잘 작동하지 않습니다, 나는 축구를 볼 수 없습니다']
回译得到的增强数据:
cn_res = ['酒店设施都非常好', '这个价格是非常实惠', '拖鞋都发霉了,坏', '电视不工作,我不能去看足球']
参考资料:
中文分词引擎 java 实现 — 正向最大、逆向最大、双向最大匹配法
Spelling Correction and the Noisy Channel
Python下的英文预处理
自然语言处理(NLP)的一般处理流程!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。