基于transformer 的翻译系统
论文:https://arxiv.org/abs/1706.03762
项目地址:https://github.com/audier/my_deep_project/tree/master/NLP/4.transformer
本文实现了一个基于自注意力机制的翻译系统。注意力机制是机制是这两年比较火的方向,其中去年提出的自注意力机制更是各位大神的宠儿,网上可读性较高的代码有一点点不完美的地方就是mask没有发挥作用,最近也在做翻译系统,于是整理本文分享思路。
本文代码参考网上可读性较好的项目:https://github.com/Kyubyong/transformer
但是作者在key_mask和queries_mask中有一定的失误,本文修改了对应的模型和multihead层,使该功能正常。
1. 数据处理
本文使用数据:https://github.com/audier/my_deep_project/tree/master/NLP/4.transformer
- 读取数据
- 分别保存为inputs,outputs
with open('cmn.txt', 'r', encoding='utf8') as f:
data = f.readlines()
- 1
- 2