赞
踩
NLP = NLU + NLG
The challenge : Mutilple ways to express.
The challenge : Ambiguity(一词多义)
解决方法:尽可能使用上下文信息
The challenge : Multi-modal(多模态)
Question Answering(问答系统)
Watson,IBM公司的问答系统,参加”危险边缘“电视节目,获得第一。
需要大量的语料库,输入知识库中储存,通过对问题的检索得出答案。具体细分为两个任务:
Sentiment Analysis(情感分析系统)
分析市场中人们的情绪、喜好、商品的评价等。
通常的做法:
Machine Translation(机器翻译)
机器翻译领域可提供具体的 评价指标,促使很多新的模型的出现。如:Seq2Seq模型,Transformer模型
Text Summarization(自动摘要)
如何通过一个长的篇章生成其摘要,通过阅读摘要即可知道原文说了什么事情。
Information Extraction(信息抽取)
从非结构化文本中抽取出结构化信息。
涉及技术:NER(命名实体识别)、关系抽取
Dialogue System(对话系统)
领域仍不完善。
文本预处理:分词、清洗(拼写纠错、停用词过滤等)、词的标准化(把词的不用表示统一为相同表示)
特征提取:将词转化为向量,输入模型
前向最大匹配(forward-max matching)
从前往后,先按照词典中最长的字符串去逐一匹配,若前面未能匹配成功,则缩短字符串长度,继续匹配。
如上图:最大长度为2,从前往后,“他说”并未在词典中,则拆为 ”他“ 和 ”说“,匹配完成。
后向最大匹配(backward-max matching)
跟前向最大匹配类似,只是扫描的方向改变了,变为从后往前。
缺点: 基于匹配(规则)的分词方法事实上是没有考虑语义的。
语言模型是NLP中最重要的工具,可以判断某个语句的出现概率(也就是这句话是不是人话),该话越通顺,则其概率越高,反之则概率越低。
计算思路:
计算词序列的概率,然后选择最大概率的词序列。使用条件概率来减少 数据稀疏的情况。
进一步,对词序列作出有向图:
词典中出现了的词,在图中对应了一条有向边。因此图中从头到尾的一次遍历,即可看成为一次词序列的分词过程。
根据词典中词的概率为每条有向边赋予一个权重,那么寻找最有可能的分词方式的问题转化为了图中的DP问题,找到图中一条使得路径上所有有向边概率乘积最大的路径,即完成分词。
编辑距离(Edit Distance): 从一个字符串变到另一个字符串所需要的最小的操作数。
操作: Insert、Delete、Replacement
如:“ABC” 与 “AB” 的编辑距离为1。
进一步,看下图:”INTENTION“ 与 ”EXECUTION” 的编辑距离。
动态规划。两个字符串之间的最小编辑距离可化为计算他们字串的最小编辑距离来实现。
做出如下表格,可计算子串之间的编辑距离是多少。
如:3(图中2行5列)的含义为 ”EXE“ 与 ”I“ 之间的最小编辑距离。
经过遍历可得到结果:
常见拼写纠正问题可分为两种情况:
错别字解决方法: 根据某种度量方式,找到与措词最相近的词,提供给用户供其选择。
度量方式: edit distance(编辑距离)
如何过滤掉一些语义不符的词?
Stemming:词干提取(结果并不一定是合法的词)
Lemmatization:词形还原(结果一定是一个合法的词)
词典:[我们,去,爬山,今天,你们,昨天,跑步]
每个单词采用 ONE-HOT 表示:
我们:[1,0,0,0,0,0,0]
爬山:[0,0,1,0,0,0,0]
以此类推。。。
词典:[我们,又,去,爬山,今天,你们,昨天,跑步]
每个句子表示:
我们 今天 去 爬山:[1,0,1,1,1,0,0,0]
即出现的词对于位置的bool值为0。与词出现的次数无关。
词典:[我们,又,去,爬山,今天,你们,昨天,跑步]
每个句子表示:
你们 又 去 爬山 又 去 跑步:[0,2,2,1,0,1,0,1]
即按照词出现的次数表示一个句向量。
使用距离公式计算句子的相似程度。
存在缺陷:并不是词出现的越多就越重要,并不是词出现的越少就越不重要。
TF-IDF对词袋模型进行修正,他可以评估 某个词对一句话或者一个文档的重要性程度。
TF思想: 一个词的重要性与当前文档中它出现的次数成正比。
IDF思想: 如果这个词频繁出现在其他文档中,那么这个词的重要性会下降。
举个例子:
如果我们使用ONE-HOT去表示单词的话,我们就很难使用向量之间的距离去衡量两个单词的相似度。
解决方式:采用分布式表示方式。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。