赞
踩
将一段文本使用张量进行表示,其中一般将词汇为表示成向量,称作词向量,再由各个词向量按顺序组成矩阵形成文本表示.
- ["人生", "该", "如何", "起头"]
-
- ==>
-
- # 每个词对应矩阵中的一个向量
- [[1.32, 4,32, 0,32, 5.2],
- [3.1, 5.43, 0.34, 3.2],
- [3.21, 5.32, 2, 4.32],
- [2.54, 7.32, 5.12, 9.54]]
文本张量表示的作用:
文本张量表示的方法:
又称独热编码,将每个词表示成具有n个元素的向量,这个词向量中只有一个元素是1,其他元素都是0,不同词汇元素为0的位置不同,其中n的大小是整个语料中不同词汇的总数.
举个例子:
- ["改变", "要", "如何", "起手"]`
- ==>
-
- [[1, 0, 0, 0],
- [0, 1, 0, 0],
- [0, 0, 1, 0],
- [0, 0, 0, 1]]
- # 导入用于对象保存与加载的joblib
- import joblib
- # 导入keras中的词汇映射器Tokenizer
- from keras.preprocessing.text import Tokenizer
- # 假定vocab为语料集所有不同词汇集合
- vocab = {"周杰伦", "陈奕迅", "王力宏", "李宗盛", "吴亦凡", "鹿晗"}
- # 实例化一个词汇映射器对象
- t = Tokenizer(num_words=None, char_level=False)
- # 使用映射器拟合现有文本数据
- t.fit_on_texts(vocab)
-
- for token in vocab:
- zero_list = [0]*len(vocab)
- # 使用映射器转化现有文本数据, 每个词汇对应从1开始的自然数
- # 返回样式如: [[2]], 取出其中的数字需要使用[0][0]
- token_index = t.texts_to_sequences([token])[0][0] - 1
- zero_list[token_index] = 1
- print(token, "的one-hot编码为:", zero_list)
-
- # 使用joblib工具保存映射器, 以便之后使用
- tokenizer_path = "./Tokenizer"
- joblib.dump(t, tokenizer_path)
- 鹿晗 的one-hot编码为: [1, 0, 0, 0, 0, 0]
- 王力宏 的one-hot编码为: [0, 1, 0, 0, 0, 0]
- 李宗盛 的one-hot编码为: [0, 0, 1, 0, 0, 0]
- 陈奕迅 的one-hot编码为: [0, 0, 0, 1, 0, 0]
- 周杰伦 的one-hot编码为: [0, 0, 0, 0, 1, 0]
- 吴亦凡 的one-hot编码为: [0, 0, 0, 0, 0, 1]
-
- # 同时在当前目录生成Tokenizer文件, 以便之后使用
- # 导入用于对象保存与加载的joblib
- # from sklearn.externals import joblib
- # 加载之前保存的Tokenizer, 实例化一个t对象
- t = joblib.load(tokenizer_path)
-
- # 编码token为"李宗盛"
- token = "李宗盛"
- # 使用t获得token_index
- token_index = t.texts_to_sequences([token])[0][0] - 1
- # 初始化一个zero_list
- zero_list = [0]*len(vocab)
- # 令zero_List的对应索引为1
- zero_list[token_index] = 1
- print(token, "的one-hot编码为:", zero_list)
李宗盛 的one-hot编码为: [1, 0, 0, 0, 0, 0]
one-hot编码的优劣势:
劣势:完全割裂了词与词之间的联系,而且在大语料集下,每个向量的长度过大,占据大量内存.
正因为one-hot编码明显的劣势,这种编码方式被应用的地方越来越少,取而代之的是接下来我们要学习的稠密向量的表示方法word2vec和word embedding.
word2vec是一种流行的将词汇表示成向量的无监督训练方法, 该过程将构建神经网络模型, 将网络参数作为词汇的向量表示, 它包含CBOW和skipgram两种训练模式.
CBOW(Continuous bag of words)模式:
数据来源:http://mattmahoney.net/dc/enwik9.zip
在这里, 我们将研究英语维基百科的部分网页信息, 它的大小在300M左右。这些语料已经被准备好, 我们可以通过Matt Mahoney的网站下载。
注意:原始数据集已经放在/root/data/enwik9.zip,解压后数据为/root/data/enwik9,预处理后的数据为/root/data/fil9
- $ head -10 data/enwik9
-
- # 原始数据将输出很多包含XML/HTML格式的内容, 这些内容并不是我们需要的
- <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.3/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.3/ http://www.mediawiki.org/xml/export-0.3.xsd" version="0.3" xml:lang="en">
- <siteinfo>
- <sitename>Wikipedia</sitename>
- <base>http://en.wikipedia.org/wiki/Main_Page</base>
- <generator>MediaWiki 1.6alpha</generator>
- <case>first-letter</case>
- <namespaces>
- <namespace key="-2">Media</namespace>
- <namespace key="-1">Special</namespace>
- <namespace key="0" />
- # 使用wikifil.pl文件处理脚本来清除XML/HTML格式的内容
- # perl wikifil.pl data/enwik9 > data/fil9 #该命令已经执行
- # 查看前80个字符
- head -c 80 data/fil9
-
- # 输出结果为由空格分割的单词
- anarchism originated as a term of abuse first used against early working class
- # 代码运行在python解释器中
- # 导入fasttext
- >>> import fasttext
- # 使用fasttext的train_unsupervised(无监督训练方法)进行词向量的训练
- # 它的参数是数据集的持久化文件路径'data/fil9'
-
- # 注意,该行代码执行耗时很长
- >>> model1 = fasttext.train_unsupervised('data/fil9')
- # 可以使用以下代码加载已经训练好的模型
- >>> model = fasttext.load_model("data/fil9.bin")
-
- # 有效训练词汇量为124M, 共218316个单词
- Read 124M words
- Number of words: 218316
- Number of labels: 0
- Progress: 100.0% words/sec/thread: 53996 lr: 0.000000 loss: 0.734999 ETA: 0h 0m
- # 通过get_word_vector方法来获得指定词汇的词向量
- >>> model.get_word_vector("the")
- array([-0.03087516, 0.09221972, 0.17660329, 0.17308897, 0.12863874,
- 0.13912526, -0.09851588, 0.00739991, 0.37038437, -0.00845221,
- ...
- -0.21184735, -0.05048715, -0.34571868, 0.23765688, 0.23726143],
- dtype=float32)
- # 在训练词向量过程中, 我们可以设定很多常用超参数来调节我们的模型效果, 如:
- # 无监督训练模式: 'skipgram' 或者 'cbow', 默认为'skipgram', 在实践中,skipgram模式在利用子词方面比cbow更好.
- # 词嵌入维度dim: 默认为100, 但随着语料库的增大, 词嵌入的维度往往也要更大.
- # 数据循环次数epoch: 默认为5, 但当你的数据集足够大, 可能不需要那么多次.
- # 学习率lr: 默认为0.05, 根据经验, 建议选择[0.01,1]范围内.
- # 使用的线程数thread: 默认为12个线程, 一般建议和你的cpu核数相同.
-
- >>> model = fasttext.train_unsupervised('data/fil9', "cbow", dim=300, epoch=1, lr=0.1, thread=8)
- Read 124M words
- Number of words: 218316
- Number of labels: 0
- Progress: 100.0% words/sec/thread: 49523 lr: 0.000000 avg.loss: 1.777205 ETA: 0h 0m 0s
- # 检查单词向量质量的一种简单方法就是查看其邻近单词, 通过我们主观来判断这些邻近单词是否与目标单词相关来粗略评定模型效果好坏.
-
- # 查找"运动"的邻近单词, 我们可以发现"体育网", "运动汽车", "运动服"等.
- >>> model.get_nearest_neighbors('sports')
- [(0.8414610624313354, 'sportsnet'), (0.8134572505950928, 'sport'), (0.8100415468215942, 'sportscars'), (0.8021156787872314, 'sportsground'), (0.7889881134033203, 'sportswomen'), (0.7863013744354248, 'sportsplex'), (0.7786710262298584, 'sporty'), (0.7696356177330017, 'sportscar'), (0.7619683146476746, 'sportswear'), (0.7600985765457153, 'sportin')]
-
-
- # 查找"音乐"的邻近单词, 我们可以发现与音乐有关的词汇.
- >>> model.get_nearest_neighbors('music')
- [(0.8908010125160217, 'emusic'), (0.8464668393135071, 'musicmoz'), (0.8444250822067261, 'musics'), (0.8113634586334229, 'allmusic'), (0.8106718063354492, 'musices'), (0.8049437999725342, 'musicam'), (0.8004694581031799, 'musicom'), (0.7952923774719238, 'muchmusic'), (0.7852965593338013, 'musicweb'), (0.7767147421836853, 'musico')]
-
- # 查找"小狗"的邻近单词, 我们可以发现与小狗有关的词汇.
- >>> model.get_nearest_neighbors('dog')
- [(0.8456876873970032, 'catdog'), (0.7480780482292175, 'dogcow'), (0.7289096117019653, 'sleddog'), (0.7269964218139648, 'hotdog'), (0.7114801406860352, 'sheepdog'), (0.6947550773620605, 'dogo'), (0.6897546648979187, 'bodog'), (0.6621081829071045, 'maddog'), (0.6605004072189331, 'dogs'), (0.6398137211799622, 'dogpile')]
- # 使用save_model保存模型
- >>> model.save_model("fil9.bin")
- # 使用fasttext.load_model加载模型
- >>> model = fasttext.load_model("fil9.bin")
- >>> model.get_word_vector("the")
- array([-0.03087516, 0.09221972, 0.17660329, 0.17308897, 0.12863874,
- 0.13912526, -0.09851588, 0.00739991, 0.37038437, -0.00845221,
- ...
- -0.21184735, -0.05048715, -0.34571868, 0.23765688, 0.23726143],
- dtype=float32)
狭义的word embedding是指在神经网络中加入的embedding层, 对整个网络进行训练的同时产生的embedding矩阵(embedding层的参数), 这个embedding矩阵就是训练过程中所有输入词汇的向量表示组成的矩阵.
word embedding的可视化分析:
- import tensorflow as tf
- import tensorboard as tb
- tf.io.gfile = tb.compat.tensorflow_stub.io.gfile
-
- # 导入torch和tensorboard的摘要写入方法
- import torch
- import json
- import fileinput
- from torch.utils.tensorboard import SummaryWriter
- # 实例化一个摘要写入对象
- writer = SummaryWriter()
-
- # 随机初始化一个100x50的矩阵, 认为它是我们已经得到的词嵌入矩阵
- # 代表100个词汇, 每个词汇被表示成50维的向量
- embedded = torch.randn(100, 50)
-
- # 导入事先准备好的100个中文词汇文件, 形成meta列表原始词汇
- meta = list(map(lambda x: x.strip(), fileinput.FileInput("./vocab100.csv")))
- writer.add_embedding(embedded, metadata=meta)
- writer.close()
- $ cd ~
- $ tensorboard --logdir=runs --host 0.0.0.0
-
- # 通过http://192.168.88.161:6006访问浏览器可视化页面
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。