赞
踩
NLP技术中 Tokenization
也可以被称作是“word segmentation”,直译为中文是指 分词。
分词是NLP的基础任务,按照特定需求能把文本中的句子、段落切分成一个字符串序列(其中的元素通常称为token或叫词语)方便后续的处理分析工作。
natural language
) 是人们交流所使用的语言。例如英语、汉语等。 它们不是人为设计出来的(尽管有人试图这样做),而是自然演变而来的。formal language
) 是人类为了特殊用途而设计出来的。例如,数学家使用的记号(notation)就是形式语言,特别擅长表示数字和符号之间的关系。化学家使用形式语言表示分子的化学结构。最重要的是编程语言是被设计用于表达计算的形式语言。stemming
)是抽取词的词干或词根形式(不一定能够表达完整语义)lemmatization
),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义)词形还原和词干提取是词形规范化的两类重要方式,都能够达到有效归并词形的目的。
二者区别:
Natural Language Understanding, NLU
)是所有支持机器理解文本内容的方法模型或任务的总称。NLU
在文本信息处理处理系统中扮演着非常重要的角色,是推荐、问答、搜索等系统的必备模块。NLP 是我们在让机器基于文本数据完成特定任务时使用的思想、方法和技术的总称——其中一部分支持机器理解文本数据的内容,因此统称 NLU、一部分支持机器生成人类可以理解的文本数据,因此统称NLG。换句话说,NLU 和 NLG 都是 NLP 的一部分。
…
GBDT
(Gradient Boosting Decision Tree
) :梯度提升迭代决策树。
GBDT
是 Boosting
算法的一种,但是和 AdaBoost
算法不同。
AdaBoost
算法是利用前一轮的弱学习器的误差来更新样本权重值,然后一轮一轮的迭代;GBDT
也是迭代,但是 GBDT
要求弱学习器必须是 分类回归树(CART
)模型,而且 GBDT
在模型训练的时候,是要求模型预测的样本损失尽可能的小。GBDT 直观理解:每一轮预测和实际值有残差,下一轮根据残差再进行预测,最后将所有预测相加,就是结果。
XGBoost
本身就是 GBDT
算法,它是在 GBDT
算法的基础上进行了一系列的优化,从而使算法拥有了更好的性能。
GBDT
是机器学习算法,XGBoost
是该算法的工程实现。CART
作为基分类器时,XGBoost
显式地加入了正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力。GBDT
在模型训练时只使用了代价函数的一阶导数信息,XGBoost
对代价函数进行二阶泰勒展开,可以同时使用一阶和二阶导数。GBDT
采用 CART
作为基分类器,XGBoost
支持多种类型的基分类器,比如线性分类器。GBDT
在每轮迭代时使用全部的数据,XGBoost
则采用了与随机森林相似的策略,支持对数据进行采样。GBDT
没有设计对缺失值进行处理,XGBoost
能够自动学习出缺 失值的处理策略。…
ELMo
(Embeddings from Language Models),是allen NLP 在18年6月NAACL上发的一个词向量训练模型。Elmo的作用是训练一个模型,用来表示某个词,换句话说,和word2vec和GloVe功能是一样的,这个新的训练方法有两点进步:
能够处理单词用法中的复杂特性(比如句法和语义)
有些用法在不同的语言上下文中如何变化(比如为词的多义性建模)
时间线:Transformer → GPT → BERT → GPT2 → GPT3 → GPT3.5(ChatGPT) → GPT4 。
- GPT-1是OpenAI在2018年6月推出的第一个版本,共有12个Transformer编码器层,其中每个编码器层包含了768个隐藏层单元。GPT-1使用的预训练数据来自WebText,这是一个包含800万个网页的数据集。通过预训练后,GPT-1在多个下游任务上取得了较好的结果。
- GPT-2是在GPT-1的基础上进行改进,于2019年2月发布。GPT-2在架构上与GPT-1相似,但它具有更多的参数和更高的性能。GPT-2拥有1.5亿个参数,是GPT-1的10倍。GPT-2使用更大的文本数据集进行预训练,包括Common Crawl、WebText和BooksCorpus等。与GPT-1相比,GPT-2在文本生成和其他下游任务上的表现都有显著提升。
- GPT-3是于2020年6月发布。GPT-3具有1750亿个参数,是GPT-2的10倍以上。GPT-3使用更大规模的语料库进行预训练,包括Common Crawl、WebText、BooksCorpus、Wikipedia和其他大型数据集。此外,GPT-3采用了更复杂的架构和更多的技术改进,如动态控制模型大小、层级分解、流控制等。GPT-3在各种自然语言处理任务上取得了出色的表现。
- ChatGPT是一个基于GPT-3.5模型的应用,主要用于生成对话文本,包括聊天机器人、客服对话等场景。相比于GPT-3.5等通用语言模型,ChatGPT更加专注于对话场景,通过针对对话语境的优化,能够生成更加贴近对话场景的自然语言文本。
GPT
(Generative Pre-trained Transformer)是由OpenAI团队于2018年提出的一种预训练语言模型。GPT是一个单向语言模型,其输入只能是文本的左侧部分。GPT使用Transformer模型,将大量无标注的文本数据预训练,然后可以用于各种下游NLP任务,如文本生成、机器翻译、问答系统等。
BERT
(Bidirectional Encoder Representations from Transformers)由Google研发,于2018年首次发表。BERT是一个双向语言模型,采用的是双向的Transformer。BERT与GPT一样,采取了Pre-training + Fine-tuning的训练方式,在分类、标注等任务下都获得了更好的效果。
主要区别:
① ELMo
优点:
缺点:
② GPT
优点:
缺点:
③ BERT
优点:
缺点:
参考文章:
https://baijiahao.baidu.com/s?id=1739586850023759094
https://blog.csdn.net/ab153999/article/details/108306008
https://blog.csdn.net/m0_37870649/article/details/93341372
https://www.jianshu.com/p/405f233ed04b
https://www.jianshu.com/p/8cfd98e4e14c
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。