赞
踩
Subword Neural Machine Translation 是一个开源项目,致力于提供一套工具集,用于文本的次词单元分割。这个项目的主要目标是方便复制和复现实验,在神经机器翻译中利用次词单位进行更高效、准确的翻译。通过使用此库,您可以轻松地学习字节对编码(Byte Pair Encoding)以及处理稀有词汇的字符n-gram分段。
项目的核心是learn-bpe
和apply-bpe
两个脚本,它们实现了Sennrich等人的研究成果——利用次词单位进行神经机器翻译中的罕见单词处理。字节对编码允许在词汇中自动发现常见子序列,有效地处理未知词汇。字符n-gram分段则针对那些在训练集中出现频率很低的词汇进行处理,以提高翻译质量。
项目提供了以下功能:
learn-bpe
学习次词操作数量,并将其应用于训练文件。apply-bpe
将次词编码应用到测试文件,还可以指定词典阈值防止生成测试时未见过的子词序列。对于共享字母表的语言,建议在所有语言的训练数据上联合学习BPE,然后过滤出只存在于训练语料库中的子词,以保证一致性并减少转写错误。
Subword Neural Machine Translation 可广泛应用于:
如果你正在寻求一种既能处理罕见词汇,又能优化多语言翻译效果的解决方案,那么Subword Neural Machine Translation 将是一个理想的选择。赶快尝试一下,让您的翻译任务更上一层楼!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。