赞
踩
1.定义:如果给定一个观察序列(不同颜色的小球序列),不能直接确定状态转换序列(坛子的序列),因为状态转移过程被隐藏起来了。所以这类随机过程被称为隐马尔科夫过程。
2.词类标注的方法:
(1)基于规则的词类标注:查字典,给词标记所有可能,逐步删除错误的可能
(2)基于隐马尔科夫模型的词类标注:词代表小球,标注代表坛子,相当于给了小球,求坛子
(3)改进隐马尔科夫模型:bigram:某词类的出现至于其前面出现的词有关
(4)基于转换的词类标注:将规则与统计结合,采用机器学习的方法,对词类进行标注
一、 最大熵模型
根据已知的约束,做出不偏不倚的选择
二、 条件马尔可夫模型——图模型
有向图模型:
图模型用图结构描述随机变量之间的依赖关系
无向图模型:
无向图模型以团为单位将联合概率分布分 解为势函数的乘积
条件马尔可夫模型:
观察序列在因子中作为条件出现,使得建模特征无需考虑特征间的独立性
三、 条件随机场模型——图模型
用于解决标记偏执问题
四、 深度语言处理模型
0. 神经网络表达能力强,但是表达能力强 != 成功 神经元数量,局部最优
特征表示分层,底层特征:简单概念,高层特征:自动学习,深度表示为特征的层次性
1. 前馈神经网络
每一层都与下层节点相连
2. 卷积神经网络:每一层都与有限个点连接
1)稀疏连接 2)参数共享 3)宽连接,窄连接
卷积操作有利于发现与位置无关的局部特征
池化操作可以将任意长度的序列转换为固定长度的序列
3. 循环神经网络:将每一层的隐藏节点也加了进来
1)面向序列结构的建模工具
2)RNN的变种,多层RNN、双向RNN
3)LSTM
缓解梯度消失 / 爆炸 问题
输入门,输出门,遗忘门
4)GRU
缓解梯度消失 / 爆炸 问题
更新门,重置门
一、 CFG
分为自顶向下算法和自底向上算法
(1) earley算法:用点来记录操作。
(2) LR算法:动作表与转移表
(3) 广义LR算法:ACTION表中可包含多个操作
二、 PCFG
CKY算法:自底向上分析
概率上下文无关文法,CFG的一种扩展。
寻找最佳分析树:韦比特算法
树库:树库(Treebank),是标记了句法树结构的语料库。
三、 依存句法分析的主要方法
(1)基于图的依存分析(Graph-based dependency parsing)
可被视作根据有向图,求解最大分析树。
cky算法
Eisner算法:一堆三角的组合
(2)基于转移的依存分析(Transition-based dependency parsing)
arc-standard分析算法
arc-eager分析算法
总:基于转移的依存分析有错误积累的问题、具有高效的优势
Eisner算法没有错误积累的问题,效率较低
最后记住一点:
1)文档是话题的混合分布 2)话题是词的混合分布
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。