当前位置:   article > 正文

生物大分子平台(11)_为什么bert的训练集要标注

为什么bert的训练集要标注

生物大分子平台(11)

2021SC@SDUSC

0 本周工作

本周了解了bert的基本概念

1 BERT综述

bert是一种预训练模型。假设A网络已经有一个数据集,先用A网络对数据集进行学习,得到一组参数,然后保存以备后用,当一个新任务B来到时,我们首先加载A网络已经学习好的参数,然后再在这组参数的基础上进行调整,这样会比在任务B上从零开始调参数更加容易得到更好的结果。

2 代码解读

深度学习模型的四个要点:1、训练数据 2、模型 3、算力 4、应用

2.1 训练数据

bert模型应用在NLP中的预训练中,我们都知道,NLP中训练数据是文本,因为文本是取之不尽的,且bert使用的文本也不需要标注,所以训练数据集合也是无限大的。

2.2 模型

BERT 可以分为五个部分 Pre-training、Deep、Bidirectional、Transformer、Language Understanding

Pre-training 预训练

模型的作者认为所有的文本问题存在通用的语言模型,先使用文章预训练出通用模型,然后再根据具体应用,使用有监督训练数据,对模型进行精加工,使之适用于具体应用,通用的语言模型叫做语言表征模型。

Bidirectional 双向预测

定义从后往前作为单向预测,结合从后往前与从前往后的预测则成为双向预测。此处扩展一个更深的概念,Deep Bidirectional称为全向预测。使用Transformer可以完成模型的全向预测。
BERT中使用了两个步骤,正确地训练模型的参数,第一个步骤是把一篇文章中,15% 的词汇遮盖,让模型根据上下文全向地预测被遮盖的词,得到一个参数。
第二个步骤是继续训练模型的参数。让模型预测哪些语句对是连续的上下文语句,哪些语句不是连续的上下文语句得到一组参数。将这两步的参数训练好,就得到了预训练的结果。

2.3 BERT特点

BERT 使用遮蔽语言模型,来克服模型的单向性局限。MLM 的灵感来自 Cloze 任务。MLM 随机遮蔽模型输入中的一些 token,目标在于仅基于遮蔽词的语境来预测其原始词汇 id。与从左到右的语言模型预训练不同,MLM 目标允许表征融合左右两侧的语境,从而预训练一个深度双向 Transformer。除了遮蔽语言模型之外,本文作者还引入了一个“下一句预测”(next sentence prediction)任务,可以和MLM共同预训练文本对的表示。

2.4 应用

BERT应对mask遮盖任务,即数据集中部分词被遮盖,使用BERT模型进行预测。
BERT基于理解两个句子之间的关系建模应对QA任务和自然语言推理(NLI)。

3 下周打算

继续学习bert,学习相关模型的代码。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/872492
推荐阅读
相关标签
  

闽ICP备14008679号