大模型LLM面试常见算法题-包括Attention和Transformer常见面试题_从transform到llm面经

作者：你好赵伟 | 2024-07-19 02:09:34

踩

从transform到llm面经

大模型：

位置编码有哪些？
介绍LoRA与QLoRA
RAG和微调的区别是什么？
哪些因素会导致LLM的偏见？
什么是思维链（CoT）提示？
Tokenizer的实现方法及原理
解释一下大模型的涌现能力？
解释langchainAgent的概念
langchain有哪些替代方案？
RLHF完整训练过程是什么？为什么RLHF的效果这么好?RLHF使用的训练数据是什么样的?
RAG和微调的区别是什么？
有了解过什么是稀疏微调吗？
简述一下FlashAttention的原理
画图说明 Transformer 基本流程
LLM预训练阶段有哪几个关键步骤？
RLHF模型为什么会表现比SFT更好？
LLaMA 模型为什么要用旋转位置编码？
DeepSpeed推理对算子融合做了哪些优化？
MHA，GQA，MQA三种注意力机制的区别是什么？
为什么现在的大模型大多是 decoder-only 的架构？
训练后量化（PTQ）和量化感知训练（QAT）与什么区别？

Attention：

1.什么是Attention? 为什么要用Attention?它有什么作用?
2.Attention的流程是什么样的?
3.普通的Attention和Transformer的Self-attention之间有什么关系:
4.什么是Self-attention?
1
2
3
4

Transformer：

transformer是什么，它的基本原理是什么?
自注意力(Self-Attention)的作用是什么?它有什么优势?
Multi-Head Attention是什么?它的作用是什么?
介绍Transformer的Encoder模块
介绍Transformer的Decoder模块
Transformer中的Positional Encoding是做什么的?
Transformer与传统的RNN和CNN模型有何区别?
解释Transformer的注意力权重?
介绍Transformer和ViT
介绍Transformer的QKV
介绍Layer Normalization
Transformer训练和部署技巧
介绍Transformer的位置编码
介绍自注意力机制和数学公式
Transformer和Mamba（SSM）的区别
Transformer中的残差结构以及意义
为什么Transformer适合多模态任务？
Transformer的并行化体现在哪个地方？
为什么Transformer一般使用LayerNorm？
Transformer为什么使用多头注意力机制？
Transformer训练的Dropout是如何设定的？

BERT：

1.BERT是什么?全称是什么?
2.BERT是如何进行预训练的?
3.BERT的优点是什么?
4.BERT的输入是什么?
5.BERT的预训练过程中是否使用了位置编码和注意力机制?
6.BERT的预训练模型有多大?
7.BERT和传统的Word2Vec、GloVe有什么区别?
8.BERT的训练策略有哪些?
9.如何微调BERT?
10.BERT的应用场景有哪些?
11.BERT的改进和扩展有哪些?

Stable Diffusion：

1.你了解Stable Diffusion吗?它是怎么训练出来的?
2.Stable Diffusion的预测过程是什么样的?
3. Stable Diffusion的diffusion是什么原理?
4.Stable Diffusion的各个模块的作用是?
你了解stable Diffusion吗?它是怎么训练出来的?

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/848899