赞
踩
Bert的结构主要是Transformer的encoder部分,其中Bert_base有12层,输出维度为768,参数量为110M,Bert_large有24层,输出维度为1024,参数总量为340M。
Bert的目标是利用大规模无标注语料训练,获得文本包含丰富语义信息的表征。
Bert的输入:token embedding,segment embedding,position embeddimg,三个向量相加作为模型的输入。
文末VIP会员、机械键盘、纸质书、硬盘等包邮送!
Transformer本身是一个典型的encoder-decoder模型,Encoder端和Decoder端均有6个Block,Encoder端的Block包括两个模块,多头self-attention模块以及一个前馈神经网络模块;
**Decoder端的Block包括三个模块,**多头self-attention模块,多头Encoder-Decoder attention交互模块,以及一个前馈神经网络模块;
需要注意:Encoder端和Decoder端中的每个模块都有残差层和Layer Normalization层。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。