繁依Fanyi0

这个屌丝很懒，什么也没留下！

热门标签

大模型（LLMs）必知必答系列大全：从基础到进阶-训练微调测评推理部署、强化学习、RAG、思维链等原理以及应用（面试问题持续更新）_llm增量预训练

作者：繁依Fanyi0 | 2024-04-25 16:30:32

踩

llm增量预训练

在这里插入图片描述

1.[大模型（LLMs）基础面]

目前主流的开源模型体系有哪些？
prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是什么？
大模型LLM的训练目标是什么？
涌现能力是啥原因？
为何现在的大模型大部分是Decoder only结构？
简单介绍一下大模型【LLMs】？
大模型【LLMs】后面跟的 175B、60B、540B等指什么？
大模型【LLMs】具有什么优点？
大模型【LLMs】具有什么缺点？
…

2.[大模型（LLMs）进阶面]

LLMs 复读机问题
1. 什么是 LLMs 复读机问题？
2. 为什么会出现 LLMs 复读机问题？
3. 如何缓解 LLMs 复读机问题？
llama 系列问题
1. llama 输入句子长度理论上可以无限长吗？
什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？
各个专业领域是否需要各自的大模型来服务？
如何让大模型处理更长的文本？
…

3.[大模型（LLMs）微调面]

3.1 [大模型（LLMs）微调面]

如果想要在某个模型基础上做全参数微调，究竟需要多少显存？
为什么SFT之后感觉LLM傻了?
SFT 指令微调数据如何构建?
领域模型Continue PreTrain 数据选取？
领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？
领域模型Continue PreTrain ，如何让模型在预训练过程中就学习到更多的知识？
进行SFT操作的时候，基座模型选用Chat还是Base?
领域模型微调指令&数据输入格式要求？
领域模型微调领域评测集构建？
领域模型词表扩增是不是有必要的？
如何训练自己的大模型？
训练中文大模型有啥经验？
指令微调的好处？
预训练和微调哪个阶段注入知识的？
想让模型学习某个领域或行业的知识，是应该预训练还是应该微调？
多轮对话任务如何微调模型？
微调后的模型出现能力劣化，灾难性遗忘是怎么回事？
微调模型需要多大显存？
大模型LLM进行SFT操作的时候在学习什么？
预训练和SFT操作有什么不同
样本量规模增大，训练出现OOM错
大模型LLM进行SFT 如何对样本进行优化？
模型参数迭代实验
微调大模型的一些建议
…

3.2[大模型（LLMs）训练经验帖]

分布式训练框架选择？
LLMs 训练时有哪些有用的建议？
模型大小如何选择？
加速卡如何选择？
…

4.大模型（LLMs）langchain 面

在这里插入图片描述

4.1 [大模型（LLMs）langchain 面]

1. 什么是 LangChain?
1. LangChain 包含哪些核心概念？
- 2.1 LangChain 中 Components and Chains 是什么？
- 2.2 LangChain 中 Prompt Templates and Values 是什么？
- 2.3 LangChain 中 Example Selectors 是什么？
- 2.4 LangChain 中 Output Parsers 是什么？
- 2.5 LangChain 中 Indexes and Retrievers 是什么？
- 2.6 LangChain 中 Chat Message History 是什么？
- 2.7 LangChain 中 Agents and Toolkits 是什么？
1. 什么是 LangChain Agent?
1. 如何使用 LangChain ?
1. LangChain 支持哪些功能?
1. 什么是 LangChain model?
1. LangChain 包含哪些特点?
1. LangChain 如何使用?
- 8.1 LangChain 如何调用 LLMs 生成回复？
- 8.2 LangChain 如何修改提示模板？
- 8.3 LangChain 如何链接多个组件处理一个特定的下游任务？
- 8.4 LangChain 如何Embedding & vector store？
LangChain 存在哪些问题及方法方案？
- 1. LangChain 低效的令牌使用问题
- 1. LangChain 文档的问题
- 1. LangChain 太多概念容易混淆，过多的“辅助”函数问题
- 1. LangChain 行为不一致并且隐藏细节问题
- 1. LangChain 缺乏标准的可互操作数据类型问题
LangChain 替代方案？
…

4.2 [基于LLM+向量库的文档对话经验面]

一、基于LLM+向量库的文档对话基础面
- 1.1 为什么大模型需要外挂(向量)知识库？
- 1.2. 基于LLM+向量库的文档对话思路是怎么样？
- 1.3. 基于LLM+向量库的文档对话核心技术是什么？
- 1.4. 基于LLM+向量库的文档对话 prompt 模板如何构建？
二、基于LLM+向量库的文档对话存在哪些痛点？
三、基于LLM+向量库的文档对话工程示例面
…

4.3 [LLM文档对话 —— pdf解析关键问题]

一、为什么需要进行pdf解析？
二、为什么需要对 pdf 进行解析？
三、pdf解析有哪些方法，对应的区别是什么？
四、pdf解析存在哪些问题？
五、如何长文档（书籍）中关键信息？
六、为什么要提取标题甚至是多级标题？
七、如何提取文章标题？
八、如何区分单栏还是双栏pdf？如何重新排序？
九、如何提取表格和图片中的数据？
十、基于AI的文档解析有什么优缺点？
…

4.4 [基于LLM+向量库的文档对话经验面]

一、基于LLM+向量库的文档对话基础面
- 1.1 为什么大模型需要外挂(向量)知识库？
- 1.2. 基于LLM+向量库的文档对话思路是怎么样？
- 1.3. 基于LLM+向量库的文档对话核心技术是什么？
- 1.4. 基于LLM+向量库的文档对话 prompt 模板如何构建？
二、基于LLM+向量库的文档对话存在哪些痛点？
三、基于LLM+向量库的文档对话工程示例面
…

5.[大模型（LLMs）参数高效微调(PEFT) 面]

5.1 [大模型（LLMs）参数高效微调(PEFT) 面]

微调方法是啥？如何微调？
为什么需要 PEFT？
介绍一下 PEFT？
PEFT 有什么优点？
微调方法批处理大小模式GPU显存速度？
Peft 和全量微调区别？
多种不同的高效微调方法对比
当前高效微调技术存在的一些问题
高效微调技术最佳实践
PEFT 存在问题？
能不能总结一下各种参数高效微调方法？
…

5.2 [配器微调（Adapter-tuning）篇]

一、为什么需要适配器微调（Adapter-tuning）？
二、适配器微调（Adapter-tuning）思路？
三、适配器微调（Adapter-tuning）特点是什么？
四、AdapterFusion 思路是什么？
五、AdapterDrop 思路是什么？
六、AdapterDrop 特点是什么？
七、MAM Adapter 思路是什么？
八、MAM Adapter 特点是什么？
…

5.3 [提示学习（Prompting）]

一、为什么需要提示学习（Prompting）？
二、什么是提示学习（Prompting）？
三、提示学习（Prompting）有什么优点？
四、提示学习（Prompting）有哪些方法，能不能稍微介绍一下它们间？
- 4.1 前缀微调（Prefix-tining）篇
  - 4.1.1 为什么需要前缀微调（Prefix-tining）？
  - 4.1.2 前缀微调（Prefix-tining）思路是什么？
  - 4.1.3 前缀微调（Prefix-tining）的优点是什么？
  - 4.1.4 前缀微调（Prefix-tining）的缺点是什么？
- 4.2 指示微调（Prompt-tuning）篇
  - 4.2.1 为什么需要指示微调（Prompt-tuning）？
  - 4.2.2 指示微调（Prompt-tuning）思路是什么？
  - 4.2.3 指示微调（Prompt-tuning）优点是什么？
  - 4.2.4 指示微调（Prompt-tuning）缺点是什么？
  - 4.2.5 指示微调（Prompt-tuning）与 Prefix-tuning 区别是什么？
  - 4.2.6 指示微调（Prompt-tuning）与 fine-tuning 区别是什么？
- 4.3 P-tuning 篇
  - 4.3.1 为什么需要 P-tuning？
  - 4.3.2 P-tuning 思路是什么？
  - 4.3.3 P-tuning 优点是什么？
  - 4.3.4 P-tuning 缺点是什么？
- 4.4 P-tuning v2 篇
  - 4.4.1 为什么需要 P-tuning v2？
  - 4.4.2 P-tuning v2 思路是什么？
  - 4.4.3 P-tuning v2 优点是什么？
  - 4.4.4 P-tuning v2 缺点是什么？
…

5.4 [LoRA 系列篇]

一、LoRA篇
- 1.1 什么是 LoRA？
- 1.2 LoRA 的思路是什么？
- 1.3 LoRA 的特点是什么？
二、QLoRA篇
- 2.1 QLoRA 的思路是怎么样的？
- 2.2 QLoRA 的特点是什么？
三、AdaLoRA篇
- 3.1 AdaLoRA 的思路是怎么样的？
四、LoRA权重是否可以合入原模型？
五、ChatGLM-6B LoRA后的权重多大？
六、LoRA 微调优点是什么？
七、LoRA微调方法为啥能加速训练？
八、如何在已有LoRA模型上继续训练？
九、LoRA 缺点是什么？
十、LoRA这种微调方法和全参数比起来有什么劣势吗？
…

6.[大模型（LLMs）推理面]

1. 为什么大模型推理时显存涨的那么多还一直占着？
1. 大模型在gpu和cpu上推理速度如何？
1. 推理速度上，int8和fp16比起来怎么样？
1. 大模型有推理能力吗？
1. 大模型生成时的参数怎么设置？
1. 有哪些省内存的大语言模型训练/微调/推理方法？
- 6.1 如何估算模型所需的RAM？
- 6.2 Fp16-mixed precision
- 6.3 Int8-bitsandbytes
- 6.4 LoRA
- 6.5 Gradient Checkpointing
- 6.6 Torch FSDP+CPU offload
1. 如何让大模型输出合规化
1. 应用模式变更
…

7.大模型（LLMs）预训练面

7.1[大模型（LLMs）增量预训练篇]

为什么要增量预训练？
进行增量预训练需要做哪些准备工作？
增量预训练所用训练框架？
增量预训练训练流程是怎么样？
…

7.2大模型（LLMs）训练集面

SFT（有监督微调）的数据集格式？
RM（奖励模型）的数据格式？
PPO（强化学习）的数据格式？
找数据集哪里找？
微调需要多少条数据？
有哪些大模型的训练集？
进行领域大模型预训练应用哪些数据集比较好？
…

7.3 [大模型（LLMs）分布式训练面]

1. 理论篇
- 1.1 训练大语言模型存在问题？
- 1.2 什么是点对点通信？
- 1.3 什么是集体通信？
- 1.4 什么是数据并行？
- 1.5 数据并行如何提升效率？
- 1.6 什么是流水线并行？
- 1.7 什么是张量并行 (intra-layer)？
- 1.8 数据并行 vs 张量并行 vs 流水线并行?
- …
1. 实践篇
- 2.1 假如有超多的8卡A100节点（DGX A100），如何应用3D并行策略？
- 2.2 如果想构这样一个大规模并行训练系统，训练框架如何选？
- 2.3 训练框架如何选？
1. 并行化策略选择篇
- 3.1 如何选择一款分布式训练框架？
- 3.2 如何选择一款分布式训练框架？
- 3.3 单GPU
- 3.4 单节点多卡
- 3.5 多节点多卡
1. 问题篇
- 4.1 推理速度验证
- 4.2 并行化训练加速
- 4.3 deepspeed 训练过程，报找不主机
- 4.4 为什么多机训练效率不如单机？
- 4.5 多机训练不通，DeepSPeed配置问题
…

[图解分布式训练（一） —— 流水线并行（Pipeline Parallelism）面]

为什么需要流水线并行（Pipeline Parallelism）？
一、流水线并行（Pipeline Parallelism）优化目标是什么？
二、图解流水线并行（Pipeline Parallelism）模型并行必要性？
三、流水线并行（Pipeline Parallelism）图解？
四、流水线并行（Pipeline Parallelism）优缺点？
…

[图解分布式训练（二） —— nn.DataParallel面]

为什么需要nn.DataParallel？
一、pytorch中的GPU操作默认是什么样？
二、介绍一下 nn.DataParallel 函数？
三、nn.DataParallel 函数处理逻辑介绍一下？
四、nn.DataParallel 函数常见问题及解答有哪些？
- 4.1 多GPU计算减少了程序运行的时间？
- 4.2 如何保存和加载多GPU训练模型呢？
- 4.3 为什么第一块卡的显存会占用的更多一些？
- 4.4 直接使用nn.DataParallel的时候，训练采用多卡训练，会出现一个warning？
- 4.5 device_ids 0 被占用问题
五、nn.DataParallel 函数参数更新方式？
六、nn.DataParallel 函数优点介绍一下？
七、nn.DataParallel 函数缺点介绍一下？
八、nn.DataParallel 函数实战？
…

[图解分布式训练（三） —— nn.parallel.DistributedDataParallel]

为什么需要 nn.parallel.DistributedDataParallel ？
一、什么是 DistributedDataParallel 核心 —— Ring-AllReduce？
二、nn.parallel.DistributedDataParallel 函数介绍一下？
三、nn.parallel.DistributedDataParallel 函数如何多卡加速训练？
四、nn.parallel.DistributedDataParallel 实现流程介绍一下？
五、nn.parallel.DistributedDataParallel 参数更新介绍一下？
六、nn.DataParallel(以下简称DP) vs DistributedDataParallel(以下简称DDP)介绍一下？
七、DistributedDataParallel(以下简称DDP) 优点有哪些？
八、DistributedDataParallel(以下简称DDP) 缺点有哪些？
…

[图解分布式训练（四） —— torch.multiprocessing 详细解析]

一、torch.multiprocessing 函数介绍一下？
二、torch.multiprocessing 函数如何使用？
三、介绍一下共享CUDA张量？
四、介绍一下共享策略？
五、torch.multiprocessing 函数使用
…

[图解分布式训练（五） —— AMP混合精度训练详细解析]

为什么需要 AMP混合精度训练？
一、什么是自动混合精度训练(AMP)
二、为什么需要自动混合精度？
三、混合精度训练的优点是什么？
四、混合精度训练的缺点是什么？
五、混合精度训练的关键技术是什么？
六、介绍一下混合精度训练动态损失缩放？
七、如何在PyTorch中使用自动混合精度？
八、如何使用 AMP混合精度训练？
…

[图解分布式训练（六） —— Pytorch的 DeepSpeed 详细解析]

一、为什么需要 Deepspeed？
二、DeepSpeed 基本概念介绍一下？
三、DeepSpeed 通信策略介绍一下？
四、DeepSpeed 如何使用？
五、DeepSpeed 代码实现？
七、训练精度介绍一下？
八、获取模型参数介绍一下？
…

[图解分布式训练（七）—— accelerate 分布式训练详细解析]

一、为什么需要 accelerate 分布式训练？
二、什么是 accelerate 分布式训练?
三、accelerate 分布式训练原理讲解？
四、accelerate 分布式训练如何实践？
…

[图解分布式训练（八）—— ZeRO 学习]

一、什么是 3D 并行？
二、3D 并行策略有哪些？
三、为什么需要 ZeRO？
四、ZeRO 的核心思想是什么？
五、ZeRO 显存如何分配？
六、ZeRO 优化策略是怎么样？
七、ZeRO Offload后的计算流程是怎么样？
…

8.[大模型（LLMs）评测面]

大模型怎么评测？
大模型的honest原则是如何实现的？模型如何判断回答的知识是训练过的已知的知识，怎么训练这种能力？
如何衡量大模型水平？
大模型评估方法有哪些？
大模型评估工具有哪些？
…

9.[大模型（LLMs）强化学习面]

1. 简单介绍强化学习？
1. 简单介绍一下 RLHF？
1. 奖励模型需要和基础模型一致吗？
1. RLHF 在实践过程中存在哪些不足？
1. 如何解决人工产生的偏好数据集成本较高，很难量产问题？
1. 如何解决三个阶段的训练（SFT->RM->PPO）过程较长，更新迭代较慢问题？
1. 如何解决 PPO 的训练过程同时存在4个模型（2训练，2推理），对计算资源的要求较高问题？
…

10.大模型（LLMs）软硬件配置面

建议的软件环境是什么？
…

10.1大模型（LLMs）显存问题面

大模型大概有多大，模型文件有多大?
能否用4 * v100 32G训练vicuna 65b？
如果就是想要试试65b模型，但是显存不多怎么办？
nB模型推理需要多少显存？
nB模型训练需要多少显存？
如何估算模型所需的RAM？
如何评估你的显卡利用率?
测试你的显卡利用率实现细节篇
1. 如何查看多机训练时的网速？
2. 如何查看服务器上的多卡之间的NVLINK topo？
3. 如何查看服务器上显卡的具体型号?
4. 如何查看训练时的flops？（也就是每秒的计算量）
5. 如何查看对deepspeed的环境配置是否正确？
6. tf32格式有多长？
7. 哪里看各类显卡算力比较？
8. （torch profiler）如何查看自己的训练中通信开销？

11.[大模型（LLMs）agent 面]

在这里插入图片描述

如何给LLM注入领域知识？
如果想要快速体验各种模型，该怎么办？
…

12.[Token及模型参数准备篇]

预训练数据 Token 重复是否影响模型性能？
SFT需要训练Token数？
…

Byte-Pair Encoding(BPE)篇
- 1 Byte-Pair Encoding(BPE) 如何构建词典？
WordPiece 篇
- 1 WordPiece 与 BPE 异同点是什么？
SentencePiece 篇
- 简单介绍一下 SentencePiece 思路？
对比篇
- 1 举例介绍一下不同大模型LLMs 的分词方式？
- 2 介绍一下不同大模型LLMs 的分词方式的区别？
…

12.1[怎么让英文大语言模型支持中文？（一） —— 构建中文tokenization]

一、为什么需要构建中文tokenization？
二、如何对原始数据预处理？
三、如何构建中文的词库？
四、如何使用transformers库加载sentencepiece模型？
五、如何合并英文词表和中文词表？
六、怎么使用修改后的词表？
总结一下构建中文tokenization？
…

12.2[怎么让英文大语言模型支持中文？（二） —— 继续预训练篇]

一、为什么需要进行继续预训练？
二、如何对继续预训练数据预处理？
三、如何构建模型？
四、如何使用模型？
…

12.3 [怎么让英文大语言模型支持中文？（三） —— 对预训练模型进行指令微调]

一、为什么需要对预训练模型进行指令微调？
二、对预训练模型进行指令微调数据如何处理？
三、对预训练模型进行指令微调 tokenization 如何构建？
四、对预训练模型进行指令微调模型如何构建？
五、是否可以结合其他库使用？
…

13. [LLMs 位置编码篇]

1 什么是位置编码？
2 什么是绝对位置编码？
3 什么是相对位置编码？
4 旋转位置编码 RoPE篇
- 4.1 旋转位置编码 RoPE 思路是什么？
- 4.2 推导一下旋转位置编码 RoPE ？
- 4.3 旋转位置编码 RoPE 有什么优点？
- 4.4 旋转位置编码 RoPE 被哪些 LLMs 应用？
5 长度外推问题篇
- 5.1 什么是长度外推问题？
- 5.2 长度外推问题的解决方法有哪些？
6 ALiBi (Attention with Linear Biases)篇
- 6.1 ALiBi (Attention with Linear Biases) 思路是什么？
- 6.2 ALiBi (Attention with Linear Biases) 的偏置矩阵是什么？有什么作用？
- 6.3 ALiBi (Attention with Linear Biases) 有什么优点？
- 6.4 ALiBi (Attention with Linear Biases) 被哪些 LLMs 应用？
…

14. [Layer normalization 篇]

Layer normalization-方法篇
- Layer Norm 篇
  - Layer Norm 的计算公式写一下？
- RMS Norm 篇（均方根 Norm）
  - RMS Norm 的计算公式写一下？
  - RMS Norm 相比于 Layer Norm 有什么特点？
- Deep Norm 篇
  - Deep Norm 思路？
  - 写一下 Deep Norm 代码实现？
- Deep Norm 有什么优点？
Layer normalization-位置篇
- 1 LN 在 LLMs 中的不同位置有什么区别么？如果有，能介绍一下区别么？
Layer normalization 对比篇
- LLMs 各模型分别用了哪种 Layer normalization？
…

15.[LLMs 激活函数篇]

1 介绍一下 FFN 块计算公式？
2 介绍一下 GeLU 计算公式？
3 介绍一下 Swish 计算公式？
4 介绍一下使用 GLU 线性门控单元的 FFN 块计算公式？
5 介绍一下使用 GeLU 的 GLU 块计算公式？
6 介绍一下使用 Swish 的 GLU 块计算公式？
各LLMs 都使用哪种激活函数？
…

16.大模型（LLMs）加速篇

16.1[大模型（LLMs）加速篇]

1. 当前优化模型最主要技术手段有哪些？
1. 推理加速框架有哪一些？都有什么特点？
3 vLLM 篇
- 3.1 vLLM 的功能有哪些？
- 3.2 vLLM 的优点有哪些？
- 3.3 vLLM 的缺点有哪些？
- 3.4 vLLM 离线批量推理？
- 3.5 vLLM API Server？
4 Text generation inference 篇
- 4.1 介绍一下 Text generation inference？
- 4.2 Text generation inference 的功能有哪些？
- 4.3 Text generation inference 的优点有哪些？
- 4.4 Text generation inference 的缺点有哪些？
- 4.5 Text generation inference 的使用docker运行web server？
…

16.2[LLM（大语言模型）部署加速方法——PagedAttention篇]

一、vLLM 用于大模型并行推理加速存在什么问题？
二、vLLM 如何优化大模型并行推理加速？
三、什么是 PagedAttention？
四、 PagedAttention 如何存储连续的key和value？
五、 PagedAttention 技术细节？
六、 PagedAttention 如何实现安全共享？
七、 PagedAttention 源码介绍？
…

16.3[大模型推理加速工具 —— vLLM]

一、引言
- 1.1 前言
- 1.2 为什么需要 vLLM ?
- 1.3 vLLM 具有哪些特点 ?
- 1.4 vLLM 支持哪些 Huggingface 模型 ?
二、vLLM 性能如何？
三、vLLM 依赖包
四、vLLM 如何安装？
五、vLLM 如何使用？
六、vLLM 分布式推理与服务
…

16.4[LLM（大语言模型）部署加速方法——Faster Transformer篇]

一、为什么需要 FasterTransformer？
二、FasterTransformer 介绍一下？
三、FasterTransformer 核心是什么？
四、FasterTransformer 优化？
…

16.5[纯Python超轻量高性能LLM推理框架 —— LightLLM]

一、引言
- 1.1 前言
- 1.2 为什么需要 LightLLM ?
- 1.3 目前 LLM推理框架有哪些?
二、LightLLM 介绍一下？
- 2.1 什么是 LightLLM ？
- 2.2 Token Attention 介绍？
- 2.3 Efficient Router 介绍？
三、LightLLM 性能表现介绍？
四、LightLLM 依赖包有哪些？
五、LightLLM 如何安装？
- 5.1 下载 LightLLM
- 5.2 安装 LightLLM 依赖
- 5.3 安装 LightLLM
六、LightLLM 如何使用？
- 6.1 启动 LightLLM 服务
填坑笔记
- LightLLM 支持模型 LLMs 模型？
…

16.6 [LLM推理技术之StreamingLLM：如何拥有无限长生成能力]

一、前言
- 1.1 大型语言模型（LLM）存在什么问题？
- 1.2 StreamingLLM 背景介绍
- 1.3 StreamingLLM 核心问题？
- 1.4 StreamingLLM 存在哪些挑战？
- 1.5 目前主流地增加输入文本长度的方法有哪些？
二、StreamingLLM 的思路是什么？
…

17.[Attention 升级面]

1 传统 Attention 存在哪些问题？
2 Attention 优化方向
3 Attention 变体有哪些？
4 Multi-Query Attention 篇
- 4.1 Multi-head Attention 存在什么问题？
- 4.2 介绍一下 Multi-Query Attention？
- 4.3 对比一下 Multi-head Attention 和 Multi-Query Attention？
- 4.4 Multi-Query Attention 这样做的好处是什么？
- 4.5 有哪些模型是使用 Multi-Query Attention？
5 Grouped-query Attention
- 5.1 什么是 Grouped-query Attention？
- 5.2 有哪些大模型使用 Grouped-query Attention？
6 FlashAttention 介绍一下
7 并行 transformer block 介绍一下？
…

18.大模型幻觉（LLM Hallucination）面

18.1[大模型幻觉（LLM Hallucination）面]

一、什么是大模型幻觉？
二、为什么LLM会产生幻觉？
三、为什么需要解决LLM的幻觉问题？
四、幻觉一定是有害的吗？
五、幻觉有哪些不同类型？
六、如何度量幻觉？
七、如何缓解LLM幻觉？
- 7.1 通过使用外部知识验证主动检测和减轻幻觉
- 7.2 事实核心采样
- 7.3 SelfCheckGPT
八、LLMs什么时候最容易产生幻觉？
…

18.2[大模型的幻觉问题篇]

一、什么是大模型幻觉问题？
二、为什么会出现大模型幻觉问题？
三、如何评估大模型幻觉问题？
四、如何缓解大模型幻觉问题？
…

18.3[大模型的幻觉问题篇]

一、为什么会出现大模型幻觉？
二、如何缓解大模型幻觉？
…

19.LLMs 对比篇

在这里插入图片描述

19.1[LLMs 对比篇]

LLMs 训练数据和数据量对比如何？
…

19.2[百川智能baichuan7B、13B、53B、baichuan2 总结篇]

一、baichuan-7B篇
- 1. 你了解baichuan-7B解构么？介绍一下？
- 1. baichuan-7B 如何收集原始数据并构建训练数据？
- 1. baichuan-7B 如何提高训练稳定性和吞吐？
二、baichuan-13B篇
- 1. 相比于 baichuan-7B，baichuan-13B 的特点体现在哪里？
- 1. 如何对 baichuan-13B 进行推理和部署？
- 1. 如何对 baichuan-13B 进行微调？
三、baichuan-53B篇
- 3.1 baichuan-53B 相比于 baichuan-7B 和 baichuan-13B 有哪些优势？
- 3.2 baichuan-53B 如何对预训练数据做处理？
- 3.3 baichuan-53B 如何进行搜索增强？
四、baichuan2篇
- 4.1 baichuan2 与其他大模型对比
五、baichuan 数据构建篇
- 5.1 baichuan 进行微调时，领域数据：通用数据配比？
…

20.思维链 Chain-of-Thought（COT）篇

20.1[思维链 Chain-of-Thought（COT）篇]

一、什么是思维链提示？
二、思维链提示本质是什么？
三、思维链提示与标准的提示学习方法有什么不同?
四、思维链提示为什么可以提高语言模型的复杂推理能力?它的优势在哪里?
五、思维链提示适用场景有哪些？
六、思维链提示目前还存在哪些不足点？
七、思维链提示对推动语言模型复杂推理能力研究有哪些启发和影响?
八、思维链提示对实现真正的通用人工智能仍面临哪些挑战?
九、如何通过增加模型规模来获得语言模型强大的思路链推理能力的?这与模型获得的哪些能力有关?
十、你认为可以在哪些其他方面应用“思路链提示”这一思路来提升语言模型的能力?
十一、如果需要你对思维链提示进行改进，你觉得你会改进哪些地方？
十二、思维链提示未来研究方向？
…

20.2[思维链 Chain-of-Thought（COT）变体篇]

思维链 Chain-of-Thought（COT）：思维链的启蒙
- 1. 什么是思维链 Chain-of-Thought（COT）？
- 1. 思维链 Chain-of-Thought（COT）是思路是什么？
- 1. 思维链 Chain-of-Thought（COT）存在问题？
思维树 Tree of Thoughts（TOT）：一种用树结构解决复杂问题的方法
- 1. 为什么需要思维树 Tree of Thoughts（TOT）？
- 1. 什么是思维树 Tree of Thoughts（TOT）？
- 1. 思维树 Tree of Thoughts（TOT）涉及问题有哪些？
思维图 Graph of Thoughts（GOT）：一种把思维链过程建模层图结构的方法
- 1. 为什么需要思维图 Graph of Thoughts（GOT）？
- 1. 什么是思维图 Graph of Thoughts（GOT）？
- 1. 思维图 Graph of Thoughts（GOT）核心思想是什么？
思维算法 Algorithm of Thoughts（AOT）：一种用DFS/BFS示例解决问题的方法
- 1. 为什么需要思维算法 Algorithm of Thoughts（AOT）？
- 1. 思维算法 Algorithm of Thoughts（AOT）思路是什么？
- 1. 思维算法 Algorithm of Thoughts（AOT） vs 其他 COT 的区别？
思维链 Chain-of-Thought（COT）有哪些应用场景？
思维链 Chain-of-Thought（COT）有哪些局限性？
…

21.[Graph RAG（Retrieval-Augmented Generation）面 —— 一种基于知识图谱的大模型检索增强实现策略]

在这里插入图片描述

一、为什么需要 Graph RAG？
二、什么是 Graph RAG？
三、Graph RAG 思路介绍？
四、用代码介绍 Graph RAG ？
五、用示例介绍 Graph RAG ？
六、Graph RAG 排序优化方式？
…

22.[大模型生成去重技术面]

一、什么是生成式大模型？
二、大模型是怎么让生成的文本丰富而不单调的呢？
三、生成式大模型存在哪些问题？
四、生成式大模型为什么会出现重复生成现象？
五、生成式大模型有哪些解决方法？
- 5.1 Unlikelihood Training
- 5.2 Repetition Penalty
- 5.3 Contrastive Search
- 5.4 Beam Search
- 5.5 TopK sampling
- 5.6 Nucleus sampler
- 5.7 Temperature
- 5.8 No repeat ngram size
- 5.9 重复率指标检测
…

更多优质内容请关注公号：汀丶人工智能；会提供一些相关的资源和优质文章，免费获取阅读。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/486220

大模型（LLMs）必知必答系列大全：从基础到进阶-训练微调测评推理部署、强化学习、RAG、思维链等原理以及应用（面试问题持续更新）_llm增量预训练

1.[大模型（LLMs）基础面]

2.[大模型（LLMs）进阶面]

3.[大模型（LLMs）微调面]

3.1 [大模型（LLMs）微调面]

3.2[大模型（LLMs）训练经验帖]

4.大模型（LLMs）langchain 面

4.1 [大模型（LLMs）langchain 面]

4.2 [基于LLM+向量库的文档对话 经验面]

4.3 [LLM文档对话 —— pdf解析关键问题]

4.4 [基于LLM+向量库的文档对话 经验面]

5.[大模型（LLMs）参数高效微调(PEFT) 面]

5.1 [大模型（LLMs）参数高效微调(PEFT) 面]

5.2 [配器微调（Adapter-tuning）篇]

5.3 [提示学习（Prompting）]

5.4 [LoRA 系列篇]

6.[大模型（LLMs）推理面]

7.大模型（LLMs）预训练面

7.1[大模型（LLMs）增量预训练篇]

7.2大模型（LLMs）训练集面

7.3 [大模型（LLMs）分布式训练面]

[图解分布式训练（一） —— 流水线并行（Pipeline Parallelism）面]

[图解分布式训练（二） —— nn.DataParallel面]

[图解分布式训练（三） —— nn.parallel.DistributedDataParallel]

[图解分布式训练（四） —— torch.multiprocessing 详细解析]

[图解分布式训练（五） —— AMP混合精度训练 详细解析]

[图解分布式训练（六） —— Pytorch的 DeepSpeed 详细解析]

[图解分布式训练（七）—— accelerate 分布式训练 详细解析]

[图解分布式训练（八）—— ZeRO 学习]

8.[大模型（LLMs）评测面]

9.[大模型（LLMs）强化学习面]

10.大模型（LLMs）软硬件配置面

10.1大模型（LLMs）显存问题面

11.[大模型（LLMs）agent 面]

12.[Token及模型参数准备篇]

12.1[怎么让英文大语言模型支持中文？（一） —— 构建中文tokenization]

12.2[怎么让英文大语言模型支持中文？（二） —— 继续预训练篇]

12.3 [怎么让英文大语言模型支持中文？（三） —— 对预训练模型进行指令微调]

13. [LLMs 位置编码篇]

14. [Layer normalization 篇]

15.[LLMs 激活函数篇]

16.大模型（LLMs）加速篇

16.1[大模型（LLMs）加速篇]

16.2[LLM（大语言模型）部署加速方法——PagedAttention篇]

16.3[大模型推理加速工具 —— vLLM]

16.4[LLM（大语言模型）部署加速方法——Faster Transformer篇]

16.5[纯Python超轻量高性能LLM推理框架 —— LightLLM]

16.6 [LLM推理技术之StreamingLLM：如何拥有无限长生成能力]

17.[Attention 升级面]

18.大模型幻觉（LLM Hallucination）面

18.1[大模型幻觉（LLM Hallucination）面]

18.2[大模型的幻觉问题篇]

18.3[大模型的幻觉问题篇]

19.LLMs 对比篇

19.1[LLMs 对比篇]

19.2[百川智能baichuan7B、13B、53B、baichuan2 总结篇]

20.思维链 Chain-of-Thought（COT）篇

20.1[思维链 Chain-of-Thought（COT）篇]

20.2[思维链 Chain-of-Thought（COT）变体篇]

21.[Graph RAG（Retrieval-Augmented Generation） 面 —— 一种 基于知识图谱的大模型检索增强实现策略]

22.[大模型生成去重技术面]

4.2 [基于LLM+向量库的文档对话经验面]

4.4 [基于LLM+向量库的文档对话经验面]

[图解分布式训练（五） —— AMP混合精度训练详细解析]

[图解分布式训练（七）—— accelerate 分布式训练详细解析]

21.[Graph RAG（Retrieval-Augmented Generation）面 —— 一种基于知识图谱的大模型检索增强实现策略]