赞
踩
2021SC@SDUSC
本周了解了bert的基本概念
bert是一种预训练模型。假设A网络已经有一个数据集,先用A网络对数据集进行学习,得到一组参数,然后保存以备后用,当一个新任务B来到时,我们首先加载A网络已经学习好的参数,然后再在这组参数的基础上进行调整,这样会比在任务B上从零开始调参数更加容易得到更好的结果。
深度学习模型的四个要点:1、训练数据 2、模型 3、算力 4、应用
bert模型应用在NLP中的预训练中,我们都知道,NLP中训练数据是文本,因为文本是取之不尽的,且bert使用的文本也不需要标注,所以训练数据集合也是无限大的。
BERT 可以分为五个部分 Pre-training、Deep、Bidirectional、Transformer、Language Understanding
模型的作者认为所有的文本问题存在通用的语言模型,先使用文章预训练出通用模型,然后再根据具体应用,使用有监督训练数据,对模型进行精加工,使之适用于具体应用,通用的语言模型叫做语言表征模型。
定义从后往前作为单向预测,结合从后往前与从前往后的预测则成为双向预测。此处扩展一个更深的概念,Deep Bidirectional称为全向预测。使用Transformer可以完成模型的全向预测。
BERT中使用了两个步骤,正确地训练模型的参数,第一个步骤是把一篇文章中,15% 的词汇遮盖,让模型根据上下文全向地预测被遮盖的词,得到一个参数。
第二个步骤是继续训练模型的参数。让模型预测哪些语句对是连续的上下文语句,哪些语句不是连续的上下文语句得到一组参数。将这两步的参数训练好,就得到了预训练的结果。
BERT 使用遮蔽语言模型,来克服模型的单向性局限。MLM 的灵感来自 Cloze 任务。MLM 随机遮蔽模型输入中的一些 token,目标在于仅基于遮蔽词的语境来预测其原始词汇 id。与从左到右的语言模型预训练不同,MLM 目标允许表征融合左右两侧的语境,从而预训练一个深度双向 Transformer。除了遮蔽语言模型之外,本文作者还引入了一个“下一句预测”(next sentence prediction)任务,可以和MLM共同预训练文本对的表示。
BERT应对mask遮盖任务,即数据集中部分词被遮盖,使用BERT模型进行预测。
BERT基于理解两个句子之间的关系建模应对QA任务和自然语言推理(NLI)。
继续学习bert,学习相关模型的代码。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。