赞
踩
预训练模型并不是自然语言处理领域的“首创”技术。
在计算机视觉领域,通常会使用ImageNet进行一次预训练,让模型从海量图像中充分学习如何从图像中提取特征。然后,会根据具体的任务目标,使用相应的领域数据精调,使模型进一步“靠近”目标任务的应用场景,起到领域适配和任务适配的作用。
预训练语言模型
广义上,泛指提前经过大规模数据训练的语言模型,包括早期的以Word2vec、Glove为代表的静态词向量模型,以及基于上下文建模的CoVe,ELMo等动态词向量模型。在2018年,以GPT和BERT为代表的基于的深层Transformer的表示模型出现后,预训练语言模型这个词才真正被大家广泛熟知。
1.大数据
要想获取更加丰富的文本语义表示,就需要获取文本在不同上下文中出现的情况,因此大规模的文本数据是必不可少的。
获取足够多的大规模文本数据是训练一个好的预训练语言模型的开始。
“保质”
“保量”
2.大模型
在大数据上训练模型时,如果不增大模型规模,可能会造成新的知识无法存放的情况,从而无法涵盖大数据中丰富的语义信息。
因此,需要一个容量足够大的模型来学习和存放大数据中的各种特征。
如何设计大模型?
1) 模型需要具有较高的并行程度,弥补大模型带来的训练速度下降的问题
2) 模型能够捕获并构建上下文信息,以充分挖掘大数据文本中丰富的语义信息。
综上两点,基于Transformer的神经网络模型成为目前构建预训练语言模型的最佳选择。
因为,Transformer模型具有较高的并行程度,Transformer核心部分的多头自注意力机制(Multi-head Self-attention)不依赖于顺序建模,因此可以快速地并行处理。
与此相反,传统的神经网络语言模型通常基于循环神经网络(RNN),而RNN需要按照序列顺序处理,并行化程度较低。
其次,Transformer中的多头注意力机制能够有效地捕获不同词之间的关联程度,并且能够通过多头机制从不同维度刻画这种关联程度,使得模型能够得到更加精准的计算结果。
3.大算力
深度学习计算设备----图形处理单元,Graphics Processing Unit,GPU
张量处理单元Tensor Processing Unit,TPU
1)GPU
图形处理单元,显卡,早期用来处理计算机图形,是连接主机和显示终端的纽带。
之后,随着计算能力和计算速度大幅提升,成为深度学习领域的计算设备。
CPU擅长处理串行运算以及逻辑控制和跳转
GPU更擅长大规模并行计算,由于深度学习中经常涉及大量的矩阵或张量之间的计算,并且这些计算是可以并行完成的。
英伟达(NVIDIA)统一计算设备架构(Compute Unified Device Architecture,CUDA)能够更好地处理复杂的计算问题,同时深度优化多种深度学习基本运算指令。
2)TPU
张量处理单元(TPU)是谷歌公司今年定制开发的专用集成电路,专门用于加开机器学习任务的训练。
人生来就是孤独的。----叔本华
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。