李宏毅LLM——大模型+大资料的神奇力量_李宏毅大模型

作者：Monodyee | 2024-03-16 02:19:33

踩

李宏毅大模型

在这里插入图片描述

文章目录

大模型的重要性
- 顿悟时刻
大资料的重要性
- 数据预处理
- 不一样的做法：KNN LM

对应视频P12-P14

大模型的重要性

模型参数和数据集越大，文字接龙的错误率越低
在这里插入图片描述

顿悟时刻

在这里插入图片描述
当模型超过10B-20B时，会突然顿悟

启示：不能只看最终结果。要看推理过程的提升

chain of thoughut、instruction tuning 只有在大模型才能起作用

语言模型知不知道自己心虚呢？

瞎掰的时候是心虚的

在某些任务上，有没有可能模型越大，结果越差呢？
在这里插入图片描述
变差只是所谓的“大模型”还不够大

但是U型曲线怎么出现的呢？
小模型：随机乱编
中模型：一知半解
大模型：计算期望

模型还能不能更大呢？
包含很多模组，但是只调用其中一部分模组

大资料的重要性

需要多少资料才能让大模型学到东西呢？
两个能力：文法用词和对世界的理解
在这里插入图片描述

数据预处理

内容过滤：谷歌的安全搜索，去除有害内容
在这里插入图片描述
去除重复资料

固定运算资源下，要大模型还是大资料？怎么找到平衡点？
目前的趋势是发展更大模型，但这是明智的选择吗？
在这里插入图片描述
固定的运算资源下，性能测试
都是U型曲线

标出最低点，找出最优曲线

小模型大资料相较于大模型小资料更优

结论：现在更需要的是大资料

快速让模型变强，文字接龙的正确率并不代表结果，Instruction-tuning可以帮助我们得到更好的结果
在这里插入图片描述