赞
踩
自然语言是人类社会发展过程中自然产生的语言,是最能体现人类智慧和文明的产物。
它是一种人与人交流的载体,我们使用语言传递知识。这个星球上许多生物都拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。
自然语言是人类间交流传播信息知识的工具语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具,人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上。
自然语言处理( Natural Language Processing,NLP )是一门]计算机科学、人工智能、认知科学、信息论、数学及语言学的交叉学科。
自然语言处理是人工智能的一个分支。人工智能的第三个阶段:认知智能,通俗讲是“能理解会思考”。人类有语言,才有概念,才有推理,所以概念、意识、观念等都是人类认知智能的表现。
因此, NLP被誉为“人工智能皇冠.上的明珠”
开始于图灵测试,经历了以规则为基础的研究方法,流行于现在基于统计学的模型和方法。
现在一般将理性主义与经验主义相结合
符号智能+计算智能,建立融合方法
传统的统计学习方法是通过经验提高性能
基本框架
给
定
一
个
训
练
数
据
集
:
T
=
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
.
.
.
(
x
N
,
y
N
)
,
其
中
,
(
x
i
,
y
i
)
,
i
=
1
,
2..
N
,
称
为
样
本
。
x
i
是
输
入
的
观
测
值
,
也
称
输
入
或
实
例
;
y
i
是
输
出
的
观
测
值
,
也
称
输
出
。
学
习
系
统
是
一
些
传
统
的
机
器
学
习
方
法
,
数
据
进
入
模
型
,
通
过
模
型
进
行
预
测
观
察
给定一个训练数据集: T = {(x_1,y_1),(x_2,y_2)...(x_N,y_N)},其中, (xi,yi),i=1,2 .. N ,称为样本。x_i是输入的观测值,也称输入或实例; y_i是输出的观测值,也称输出。学习系统是一些传统的机器学习方法,数据进入模型,通过模型进行预测观察
给定一个训练数据集:T=(x1,y1),(x2,y2)...(xN,yN),其中,(xi,yi),i=1,2..N,称为样本。xi是输入的观测值,也称输入或实例;yi是输出的观测值,也称输出。学习系统是一些传统的机器学习方法,数据进入模型,通过模型进行预测观察
深度学习(Deep Learning, DL)
深度学习是一种基于特征学习的机器学习方法。把原始数据通过简单但非线性的模块转变成更高层次、更加抽象的特征表示,通过足够多的转换组合,非常复杂的函数也能被学习。
语言模型
基于马尔可夫假设, N-gram语言模型认为一-个词出现的概率只与它前面的n-1个词相关
根据条件概率公式与大数定律,当语料的规模足够大时,有
■N-gram语言模型
神经概率语言模型依然是一个概率语言模型 ,它通过神经网络来计算概率语言模型中每个参数
p
(
w
∣
c
o
n
t
e
x
t
(
w
)
)
=
g
(
i
w
,
V
c
o
n
t
e
x
t
p(w|context(w)) = g(i_w, V_{context}
p(w∣context(w))=g(iw,Vcontext
N-gram神经语言模型
经典的神经概率语言模型,它沿用了N-gram模型中的思路,将w的前n-1个词作为w的上下文context(w), 而V_ context由这n-1 个词的词向拼接而成,即
分布式表示——词向量表示
基于文本的词向量学习
V是数据集中的词向量个数,D是维度
■词表规模V的确定:
1 )训练数据中所有词;
2 )频率高于某个阈值的所有词;
3 )前V个频率最高的词,e.g. V= 50000, V=80000
■Mikolov2013年提出了两种模型- – CBOW和Skip-gram
与Bengio的NPL M模型相比
视频里还有好多,不想写了,想要的私聊我下吧,视频加ppt都给你。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。