赞
踩
位置编码有哪些?
介绍LoRA与QLoRA
RAG和微调的区别是什么?
哪些因素会导致LLM的偏见?
什么是思维链(CoT)提示?
Tokenizer的实现方法及原理
解释一下大模型的涌现能力?
解释langchainAgent的概念
langchain有哪些替代方案?
RLHF完整训练过程是什么?为什么RLHF的效果这么好?RLHF使用的训练数据是什么样的?
RAG和微调的区别是什么?
有了解过什么是稀疏微调吗?
简述一下FlashAttention的原理
画图说明 Transformer 基本流程
LLM预训练阶段有哪几个关键步骤?
RLHF模型为什么会表现比SFT更好?
LLaMA 模型为什么要用旋转位置编码?
DeepSpeed推理对算子融合做了哪些优化?
MHA,GQA,MQA三种注意力机制的区别是什么?
为什么现在的大模型大多是 decoder-only 的架构?
训练后量化(PTQ)和量化感知训练(QAT)与什么区别?
1.什么是Attention? 为什么要用Attention?它有什么作用?
2.Attention的流程是什么样的?
3.普通的Attention和Transformer的Self-attention之间有什么关系:
4.什么是Self-attention?
1.BERT是什么?全称是什么?
2.BERT是如何进行预训练的?
3.BERT的优点是什么?
4.BERT的输入是什么?
5.BERT的预训练过程中是否使用了位置编码和注意力机制?
6.BERT的预训练模型有多大?
7.BERT和传统的Word2Vec、GloVe有什么区别?
8.BERT的训练策略有哪些?
9.如何微调BERT?
10.BERT的应用场景有哪些?
11.BERT的改进和扩展有哪些?
1.你了解Stable Diffusion吗?它是怎么训练出来的?
2.Stable Diffusion的预测过程是什么样的?
3. Stable Diffusion的diffusion是什么原理?
4.Stable Diffusion的各个模块的作用是?
你了解stable Diffusion吗?它是怎么训练出来的?
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。