当前位置:   article > 正文

自然语言处理总复习(九)—— 机器翻译_自然语言处理机器翻译

自然语言处理机器翻译

一、概述

1. 定义

用计算机实现从一种自然语言(源语言/source language)到另一种自然语言(目标语言/target language)文本的翻译。

2. 分类
  • Human Assisted Machine Translation (HAMT) 人助机译
  • Computer Aided Translation (CAT) 机助人译
  • Fully Automatic Machine Translation (FAMT) 全自动机器翻译
3. 发展历史

在这里插入图片描述

二、机器翻译的技术路线

  • 基于规则的机器翻译 —— 基于理性主义的方法;
  • 实例统计的机器翻译 ——经验主义的方法或者基于语料库的方法;

但是这种说法不是很确切。因为语料库已经用于所有的机器翻译开发中。只不过是直接应用还是间接应用。
在这里插入图片描述

实用化的策略

在这里插入图片描述

(一)基于规则

1. 直接式翻译

进行词汇的更换

2. 转换式翻译

(1)通过句法分析得到某种内部的结果化表达

在这里插入图片描述

(2)变换句型

在这里插入图片描述

(3)目标语言的形态生成

在这里插入图片描述

(二)基于实例

在这里插入图片描述

基于实例的机器翻译问题

在这里插入图片描述

(三)基于统计

1. 基于统计的原因

在这里插入图片描述

2. 要素

(1)数据

大规模的双语语料库 (比如107–109 词次) ,它用于训练统计翻译模型。大规模的单语数据库,它用于训练语言模型

(2)学习

模型的学习(也叫训练),模型包括系统架构及其各项参数。在系统架构已经确定下,利用以上数据可以自动学习翻译模型的各项参数。

(3)搜索

翻译过程 (也叫解码过程或者搜索过程)。对一个新的句子,利用学习得到的模型产生多个候选句子,并且利用一种搜索方法,求得一个最好的译文。

3. 例子

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. 基于词的统计机器翻译(IBM Models)

在这里插入图片描述

(1)统计机器翻译系统

在这里插入图片描述

(2)贝叶斯规则

在这里插入图片描述

(3)统计机器学习的三个问题

在这里插入图片描述

1)语言模型
a. 经典的语言模型 —— N-Grams模型

模型目标: 选择哪一个句子更像一个句子

He is on the soccer field
He is in the soccer field

Is table the on cup the
The cup is on the table
  • 1
  • 2
  • 3
  • 4
  • 5

模型方法:

在这里插入图片描述

1)翻译模型

在这里插入图片描述

三、机器翻译的评价

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、利用互联网获取双语预料

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号