赞
踩
全文共5257字,预计学习时长11分钟或更长
通过阅读本篇文章,你将理解:
· NLP中的Transformer模型真正改变了处理文本数据的方式。
· Transformer支持NLP的最新变化,包括谷歌的BERT。
· 了解Transformer的运作规律,如何进行语言建模、序列到序列建模以及如何构建Google的BERT模型。
下面,我们开始学习吧!
图片来源:pexels/Dominika Roseclay
当前,自然语言处理(NLP)的技术正以前所未有的速度发展。从超高效的ULMFiT框架到谷歌的BERT,NLP的确处于发展的黄金时代。
这场革命的核心就是Transformer概念,它改变了数据科学家使用文本数据的方式,下文将做具体介绍。
要举个例子证明Transformer的实用吗?请看下一段:
突出显示的词语指的是同一个人——Grieamann,一名受欢迎的足球运动员。对人类而言,弄清楚文本中这些词之间的关系并不困难。然而,对于一台机器来说,这是一项艰巨的任务。
机器要想理解自然语言,明确句子中的此类关系和词语序列至关重要。而Transformer 概念会在其中发挥重要作用。
目录
1. 序列到序列模型——背景
· 基于序列到序列模型的循环神经网络
· 挑战
2. NLP中的Transformer简介
· 理解模型框架
· 获得自注意力
· 计算自注意力
· Transformer的局限
3. 了解Transformer-XL
· 使用Transformer进行语言建模
· 使用Transformer-XL进行语言建模
4. NLP中的新尝试:Google的BERT
· 模型框架
· BERT训练前的任务
NLP中的序列到序列(seq2seq)模型用于将A类型的序列转换为B类型的序列。例如,把英语句子翻译成德语句子就是序列到序列的任务。
自2014年引进以来,基于seq2seq模型的循环神经网络(RNN)已经获得了很多关注。当前世界的大多数数据都是序列形式,包括数字序列、文本序列、视频帧序列和音频序列。
2015年,seq2seq模型增加了注意力机制,使性能得到进一步提升。过去5年来NLP发展速度之快,简直令人难以置信!
这些序列到序列模型用途非常广泛,适用于各种NLP任务,例如:
· 机器翻译
· 文本摘要
· 语音识别
· 问答系统等
举一个关于seq2seq模型的简单例子。请看下图:
上方的seq2seq模型正将德语短语转换为英语短语。下面进行分解:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。