赞
踩
预处理流程:
原始语料库—>质量过滤(语种过滤、统计过滤、关键词过滤、分类器过滤)—>敏感内容过滤(有毒内容、隐私内容PII)—>数据去重(句子级别、文档级别、数据集级别)—>词元化(分词)(BPE分词、WordPiece分词、Unigram分词)—>准备预训练
数据处理框架:Data-Juicer
质量过滤:
完成数据预处理之后,需要设计合适的调度策略来安排这些多来源的数据,进而用于训练大语言模型。通常来说,数据调度(Data Scheduling)主要关注两个方面:各个数据源的混合比例以及各数据源用于训练的顺序(称为 数据课程,Data Curriculum)。
Transformer 是由多层的多头自注意力(Multi-head Self-attention)模块堆叠而成的神经网络模型。原始的 Transformer 模型由编码器和解码器两个部分构成,而这两个部分实际上可以独立使用,例如基于编码器架构的 BERT 模型和解码器架构的 GPT 模型。
解析Transformer的文章和书籍太多,这里只记录一些重点。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。