赞
踩
分类问题与预测问题
自回归模型
按字母处理
例如:S=“… to be or not to be”
将文本切分为字母排列:
L=[…, ‘t’, ‘o’, ’ ', ‘b’, ‘e’]
按单词处理文本切分
给定文本片段,如:S=“… to be or not to be”
将文本切分为单词序列:
L=[…,to,be,or,not,to,be]
一篇文章可以被简单地看作一串单词序列,甚至是一串字符序列。我们将解析文本的常见预处理步骤。 这些步骤通常包括:
第一步:读取数据集
以H.G.Well的时光机器为例,从中加载文本。 这是一个相当小的语料库,只有30000多个单词,而现实中的文档集合可能会包含数十亿个单词。如Chatgpt包含65T数据
第二步:词汇切分
将原始文本以文本行为单位进行切分
第三步:构建词索引表
如何将词映射成向量?
直接想法:使用之前所述的独热向量
问题:维数过高→解决方案:
词嵌入(word embedding),将独热向量映射为低维向量
映射参数矩阵
词嵌入训练效果
准确率74%(测试集),不好不差
用RNN建模序列数据
输入:The cat sat on the mat
问题
随着输入的增加,会产生“遗忘”问题
每个时间步的隐状态和输出可以写为:
通过一个目标函数在所有
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。