当前位置:   article > 正文

最先进模型指南:NLP中的Transformers如何运作?_精通transformer:从零开始构建最先进的nlp模型 试读

精通transformer:从零开始构建最先进的nlp模型 试读

全文共5257字,预计学习时长11分钟或更长

通过阅读本篇文章,你将理解:

· NLP中的Transformer模型真正改变了处理文本数据的方式。

· Transformer支持NLP的最新变化,包括谷歌的BERT。

· 了解Transformer的运作规律,如何进行语言建模、序列到序列建模以及如何构建Google的BERT模型。

下面,我们开始学习吧!

图片来源:pexels/Dominika Roseclay

当前,自然语言处理(NLP)的技术正以前所未有的速度发展。从超高效的ULMFiT框架到谷歌的BERT,NLP的确处于发展的黄金时代。

这场革命的核心就是Transformer概念,它改变了数据科学家使用文本数据的方式,下文将做具体介绍。

要举个例子证明Transformer的实用吗?请看下一段:

突出显示的词语指的是同一个人——Grieamann,一名受欢迎的足球运动员。对人类而言,弄清楚文本中这些词之间的关系并不困难。然而,对于一台机器来说,这是一项艰巨的任务。

机器要想理解自然语言,明确句子中的此类关系和词语序列至关重要。而Transformer 概念会在其中发挥重要作用。

目录

1. 序列到序列模型——背景

· 基于序列到序列模型的循环神经网络

· 挑战

2. NLP中的Transformer简介

· 理解模型框架

· 获得自注意力

· 计算自注意力

· Transformer的局限

3. 了解Transformer-XL

· 使用Transformer进行语言建模

· 使用Transformer-XL进行语言建模

4. NLP中的新尝试:Google的BERT

· 模型框架

· BERT训练前的任务

序列到序列模型——背景

NLP中的序列到序列(seq2seq)模型用于将A类型的序列转换为B类型的序列。例如,把英语句子翻译成德语句子就是序列到序列的任务。

自2014年引进以来,基于seq2seq模型的循环神经网络(RNN)已经获得了很多关注。当前世界的大多数数据都是序列形式,包括数字序列、文本序列、视频帧序列和音频序列。

2015年,seq2seq模型增加了注意力机制,使性能得到进一步提升。过去5年来NLP发展速度之快,简直令人难以置信!

这些序列到序列模型用途非常广泛,适用于各种NLP任务,例如:

· 机器翻译

· 文本摘要

· 语音识别

· 问答系统等

基于seq2seq模型的循环神经网络

举一个关于seq2seq模型的简单例子。请看下图:

上方的seq2seq模型正将德语短语转换为英语短语。下面进行分解:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/883405
推荐阅读
相关标签
  

闽ICP备14008679号