赞
踩
机器翻译:多对多的问题,输入和输出的长度都不固定
Tab-delimited Bilingual Sentence Pairs: http://www.manythings.org/anki/
选择German-English文件,打开文件,左边英语句子,右边德语句子,一个英语句子对应多个德语句子,给定一句英语如果翻译对应其中一个德语句子,那么翻译正确。
分词方法有两种:
本节为了为了方便,使用Tokenization in the char-level.
两种语言的字符是不同的,因此需要两种不同的Tokenizer(分词器),各有各的字母表
不同的语言有不同的分词方法
假如抽样得到了终止符,终止文本生成,返回这个生成的序列。
假如抽样得到了终止符,终止文本生成,返回这个生成的序列。
Decoder必须是单向的,它是一个文本生成器,必须按顺序生成文本,因此Decoder不能用双向LSTM。
Word-level tokenization instead of char-level.
But you will need a large dataset! (但是,你需要更大的数据集)
把英语翻译成德语是一个任务,还可以多添加几个任务:比如把英语句子翻译成英语句子本身,添加一个Decoder,根据(h,c)生成英语句子,这样一来Encoder只有一个,而训练数据多了一倍,所以Encoder可以被训练的更好。
Even if you want to translate English to German, you can use all the datasets:(还可以利用英语翻译成其它语言)
但是Encoder只有一个。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。