赞
踩
自然语言处理是实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
匹配关键词,句法、语义
N元文法模型,隐马尔可夫模型,最大熵模型,条件随机模型,
让人模拟人对句子的理解进行分词。
N元文法模型,隐马尔可夫模型,最大熵模型,条件随机模型,
形式,语义,推理和语用。
新闻自动分类,电子商务评价分类,垃圾邮件识别等。
基于机器学习的分类
朴素贝叶斯、SVM、最大熵分类
基于神经网络的方法
MLP,CNN,RNN
文本聚类分类
具有距离的分类
通过相似度函数计算语义关联度,然后根据语义关联度进行聚类,如K-means
基于概率模型的分类
对态度,观点进行抽取、
SVM,CNN,RNN,LSTM
抽取主要内容。
抽取句子进行排序,生成简短摘要。
广告
1、检索
问句理解,信息检索,答案抽取。
2、闲聊,依赖生成语料。
词向量的维度大,进行降维,可以将one-hot编码转化为低维度的连续值,也就是稠密向量。
词向量中语义上接近的词距离接近,语法上接近的词语义接近。
语言模型就是判定给的词的概率,现在深度学习可以生成概率,已经转换到关注模型本身。
如果P>阈值,阈值是通过文本数据集或者语料库得到的。
train/valid/test,阈值让验证集的正确率最高。
将词变为向量
将输出建成一个哈夫曼数,将多分类变为2分类。但是目前还是用one-hot方法。
使用随机负采样策略,最大化正样本的概率,最小化负样本的概率,就是随机将样本替换掉。
采样要求高频词语选用的概率大,这是带权采样。
Bag-of-words
缺点:丢失了词汇之间的顺序。直接将词向量相加。
Pooling
取词向量最大,最小,平均,然后进行拼接cat,句子向量长度是词向量长度的三倍。
CNN
有监督学习,可以学习到词序信息。
Variations
把词向量拆分成字符,在输入端引入字符向量,层级CNN。
Pooling
LSTM/CNN-GRU
数据长度是可变的,顺序是有意义的。
带有自反馈的神经元,语音识别,图像处理,语言模型,自然语言生成任务。
所有的词语具有相同的权重矩阵
f是激活函数,通常为sigmoid,和tanh,t是时间,xt是输入,h是输出,W是权重矩阵,wx+b是一个线性层,ht-1是上一个时刻的输出,U是一个矩阵,
长期依赖
很久以前的输入,对当前时刻的网络影响较小,反向传播的梯度,也很难影响很久以前的输入。
解决:
使用RELU函数,采用其他模型代替激活函数。tanh会造成梯度消失的问题。
提出LSTM
引入记忆单元(memory units),允许网络学习什么时候遗忘历史信息。也就是矩阵得到的值得到记忆单元,并受三个门控制,三个门的元素在【0,1】之间,输入门,遗忘门,和输出门
核心:记忆和门控制(sigmoid(0,1)神经网络层和按位层)
相当于一个线性函数映射到(0,1)之间,如果接近0,就选择遗忘。
第二行是输入函数,映射到(-1,1),将第一行和第二行乘。
将输入门和遗忘门简化为更新门。
有树状结构。可以用于句子的主谓宾,根据一个给定的拓扑结构,进行词的语义组合。
输入,隐藏,输出
层与层是连接的,每层的节点是不连接的
输入和输出的维度是固定的,不能任意改变,无法处理边长的序列数据
词汇节点位置无关,无法对语言中词语序进行建模。
不同大小的图片
时长不一的视频
长短不同的句子
序列长度不同的对话
视频由连续的图片组成
词义取决上下文,
情感取决上下问
引出DNN
电影评论情感分析。
IRIS ML
MNIST Image CNN
LDMB Text RNN
cora Paper GNN
从3之后才是我们要处理的词汇。2代表的是低频词。1代表是起始词,0是要填充的数字,预处理的一个辅助函数,
使用FC全连接层可以将高维变成低维,将嵌入层作为第一层,代替词向量功能的,LSTM将x变成h,
1.word vector :不需要进行训练
2、Embeddding :需要进行训练、
没有按照顺序,
增加个性化权重,可以使得模型更具有可解释性
transformer是GoogleBrain在2017年12月发表的论文Attention is all you need提出的seq2seq模型,现在已经取得了大范围的应用和扩展,二BERT就是从Transformer中衍生出来的预训练的语言模型。VGG16有1亿多参数,GPT有100G
编码器和解码器各自重复6个基本块,
整体认识:
Positional Encoding :位置嵌入就是位置编码
两个子层:Mu;ti-Head self attention Mechanism,Position-wise fully connected feed-forward network
每个子层都接入残差连接和子层正则化
Residual Connection Layer Normalization
解码器增加mask,使得输出yi不依赖yi+1,yi+2…
知道V,V有不同加权。根据不同权重进行查找。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。