赞
踩
1.什么是自然语言处理
对人类的语言进行理解
1.1自然语言处理能做什么
(1)搜索引擎- 用户输入关键词--关键词自然语言处理--查找到合适的文档--查找合适的广告--质量排序page rank(分析网页结构-分析,数据挖掘需要做的)--
(2)图像结构化--将图片内容,NLP抽象出相关的结构化信息,用于构建只是图谱。
(3)机器阅读Machine Reading--利用图片转成 的 中间文本, 找到 多个知识节点之间的关系。
(4)个人语音助手
(5)语言翻译
(6)情感分析和意见挖掘--分析美国不同州,情绪的跌宕起伏。
2.分布的词表示Word Representation
把词转为一个机器能理解的表示。
2.1词表示相关方法
(1)词相似度 Star星星-Sun太阳 (2)词的关联关系 China-Beijing Man-King Quue-Woman
2.2 如何表示一个词
(1)最早:表示一个词,可以用一组相关词来表示一个词。隶属词、同义反义词等
缺点:需要人工进行标注,新词/情境下可能机器理解错误这个意思。
(2)热词向量,将词表中所有的词作为一个向量,0没有,1有。
缺点:任意两个词之间的相关性都是0.
(3)上下文表示法:跟据某个词上下文中出现的词频率进行表示
一个向量,每个元素-上下文的词出现的频次。
优点:能找到关联性。
缺点:依赖文本的上下文内容。
(4)分布式表示法Distributed Representation
构建一些低维度向量,将相关的词进行表示,进而表示某个词的意思。
学习方法:可以自己去网上找文本进行学习
代表方法:Word2Vec
3.语言模型是什么
跟据前边已经出现的词,预测下边词的能力。(人的基本能力)
3.1需要做的2个事情
(1)已知句子的合法概率:需要计算出,跟据已有的句子,与 前边存在的词, 计算出 已经学习过的句子成为一句 符合人类能理解句子的合法概率;
(2)预测下次的能力:跟据前边已经说的话,预测下一个词是什么
3.2语言模型的基本假设-马尔科夫假设
后边的词 取决于前边已有的词。
never too late to learn 这句话的概率
等于各个 词组合的联合概率 进行条件的相乘
3.3 N-Gram Model
跟据已有的机器学习材料,对后边的词 出现的概率进行统计。只会考虑相邻的词。
N-Gram Model:利用马尔科夫假设,我们用近似的learn 后间隔几个词 ,来近似代替多个词的 句子 的概率进行计算得出概率
N-Gram的缺点:
(1)N一般在2-3,没有特别长,不然结果会非常稀疏;
(2)无法计算相似度
4.Neural Language model 神经语言模型
神经语言模型是基于神经网络 学习 分布式词表达 的 语言模型。
(1)3步看图
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。