赞
踩
概念:机器翻译是用计算机把一种语言翻译成另一种语言的一门科学和技术。
自然语言中普遍存在的歧义和未知现象。
机器翻译不仅仅是字符串的转换。
机器翻译的解不唯一,而且始终存在的人为的标准。
步骤如下:
它的执行过程为:独立分析 → \rightarrow →独立生成 → \rightarrow →相关转换。
因此,又称为基于转换的翻译方法。
方法:输入句子 → \rightarrow →中间语言 → \rightarrow →翻译结果。
基于事例的翻译方法
统计翻译方法
神经网络翻译方法
统计翻译的思想:
P
(
T
∣
S
)
=
P
(
T
)
P
(
S
∣
T
)
P
(
S
)
P(T|S)=\frac{P(T)P(S|T)}{P(S)}
P(T∣S)=P(S)P(T)P(S∣T)
T ^ = a r g m a x T P ( T ) P ( S ∣ T ) \hat{T}=argmax_TP(T)P(S|T) T^=argmaxTP(T)P(S∣T)
其中 P ( T ) P(T) P(T)为目标语言模型, P ( S ∣ T ) P(S|T) P(S∣T)为翻译模型。
直接使用n-gram语言模型即可。
关键问题:怎样定义目标语言句子中的词与源语言句子中的词之间的对应关系。
这就需要对位模型(alignment model)了。
将对位模型
A
A
A视为隐变量,则:
P
(
S
∣
T
)
=
∑
A
P
(
S
,
A
∣
T
)
P(S|T)=\sum_AP(S,A|T)
P(S∣T)=A∑P(S,A∣T)
详见纸质版。
统计机器翻译模型方法的体系如下图所示:
常用评测指标:
句子错误率:错误句子占全部译文的比率。
单词错误率:计算译文与每个参考译文的编辑距离,以最短的为评分依据,进行归一化处理。
与位置无关的单词错误率:不考虑单词在句子中的顺序
METEOR评测方法:对候选译文与参考译文进行词对齐,计算词汇完全 匹配、词干匹配、同义词匹配等各种情况的准确率 §、召回率®和F平均值 。
BLEU:将机器翻译产生的候选译文与人翻译的多个参考译文相比较,越接近,候选译文的正确率越高。
实现方法:统计同时出现在系统译文和参考译文中的n元词 的个数,最后把匹配到的n元词的数目除以系统译文 的n元词数目,得到评测结果。
BLEU 分值范围:0 ~ 1,分值越高表示译文质量越好,分值越小,译文质量越差。
NIST评测方法:NIST评分值为不小于0的实数,0分表示译文质量最差。
神经机器翻译采用编码解码网络,简单有效,已逐渐取代统计机器翻译,成为主流研究范式。
神经网络翻译仍然面临诸多问题:
关键模块:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。