当前位置:   article > 正文

大模型学习——【清华NLP】刘知远团队大模型公开课全网首发|带你从入门到实战(一)

刘知远团队大模型公开课

官方网站:https://www.openbmb.org
启智社区:https://git.openi.org.cn/OpenBMB
GitHub:https://github.com/OpenBMB

1-4 自然语言处理基础--基础与应用_哔哩哔哩_bilibili

  1. Basic Tasks of NLP

  • Part of speech(词性标注,名词,动词,形容词……)
  • Named entity recognition(命名实体的识别,人名,地名,日期……)
  • Co-reference(代词是指代哪个实体,共指消解)
  • Basic dependencies(依赖关系的识别)
  1. 1-5 自然语言处理基础--词表示与语言模型_哔哩哔哩_bilibili
  2. problems of synonym/Hypernym Representation

  3. One-Hot Representation(把每一个词表示成一个独立的符号)
  • regard words as discrete symbols
  • word ID or one-hot representation
  • 假设词与词之间的向量都是正交的,从而导致任意两个词之间进行相互的计算都是0
  1. Represent word by context词的含义是和经常出现的位置上下文密切相关的
  • Word Embedding(深度学习,大模型所在做的) 
  • distrubuted representation(建立一个低纬度稠密的的向量空间, 然后把每个词都学到这个空间,用空间中某个位置表示对应这个词)
  • build a dense vector for each word learnd from large-scale text corpora
  • Learing method:Word2Vec(代表性工作)
  •  
  • problems of count -based representation:
  • Increase in size with vocabulary(词汇空间的容量更大)
  • Require a lot of storage(需要更大的内存)
  • sparsity issue for those less frequent words(有些词的关联词比较少)

  • language modle(language Modeling is the task of predicting the upcoming word )(计算机根据前文去预测下一个词,计算可能出现词的概率)

  • compute joint pribability of a sequence of words:P(W)=P(w1,w2,……,wn)
  • compute conditional probability of an upcoming word wn:
  • How to compute the sentence probability?
  • N-gram Model

  • 马尔科夫假设,比如n个词连续出现的概率=第i个词出现且前面i-1个词出现(条件概率)的乘积,而只有连续的某k个词是有相关概率关系的,故条件概率乘积只用前k个
  • problems of N-gram
  • not considering contexts father than 1 or 2  words(N的个数越大,需要内存越大,且相似的文本越少,兴盛时期一般是2-3)
  • not capturing the similarity between words(假设所有词都是相互独立的,下面例子认为相似度为0)
  • neural language model
  • a neural language model is a language modle based on neural networks to learn distributed representations of words(用分布式的方式建构条件概率,神经网络权重)
  • N-gram中每个词都是一个符号,而Neural language model 里每个词表示一个低纬度向量,相似的词的向量也比较相似,在语境里面发挥相似的作用。

1-6 大模型基础--大模型之旅_哔哩哔哩_bilibili

大规模无标注数据上进行模型学习,学完后这个模型可能具备很多的知识,这样就不需要用更多的样本,只需要少量的样本告诉模型要做什么任务,引导模型去把和任务相关的知识提取出来,并去解决这个问题,GPT-3

1-7 大模型基础--大模型背后的范式_哔哩哔哩_bilibili

预训练模型

模型预训练阶段,通过大规模的无标注数据,活动大量通用知识,可能可以解决各式各样的问题—,但不是所有问题都是适用的 >结合任务特定的数据,对参数进行微调,抛去无关的知识,这样最终的训练模型可以用于解决特定的任务

最早可以溯源到迁移学习

transfer learning uses a "pre-training and then fine-tuning "framework to achieve "konwledge acquisition and then konwledge transfer"

1-8 大模型基础--实例_哔哩哔哩_bilibili

1-9 编程环境和GPU服务器介绍_哔哩哔哩_bilibili

做深度学习和大模型需要和Linux,ssh,vim,conda,pip,vscode+remote connection,git,bash(自动化脚本)——自行百度搜索

90%的中大型企业都会选用SSH?8分钟让你明白它赢在哪里!附实验操作_哔哩哔哩_bilibili

什么是远程登录的安全协议SSH

SSH(多一层加密机制,非对称加密方式,共有密钥加密,我们电脑路由器上私有密钥解密) vs Talnet(企业内网,明文)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/804517
推荐阅读
相关标签
  

闽ICP备14008679号