赞
踩
对于一个具有少量数据的任务 A,首先通过一个现有的大量数据搭建一个 CNN 模型 A,由于 CNN的浅层学到的特征通用性特别强,因此在搭建一个 CNN 模型 B,其中模型 B 的浅层参数使用模型 A 的浅层参数,模型 B 的高层参数随机初始化,然后通过冻结或微调的方式利用任务 A 的数据训练模型 B,模型 B 就是对应任务 A 的模型。
预训练的思想:任务 A 对应的模型 A 的参数不再是随机初始化的,而是通过任务 B 进行预先训练得到模型 B,然后利用模型 B 的参数对模型 A 进行初始化,再通过任务 A 的数据对模型 A 进行训练。
注:模型 B 的参数是随机初始化的
语言模型通俗点讲就是计算一个句子的概率。
给定一句由n个词组成的句子W = w1,w2,…,wn,计算该序列的概率,即P(w1,w2,…,wn),或者根据上下文计算下一个词的概率P(wn|w1,w2,…,wn-1)。
Eg.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。