赞
踩
这个系列主要是准备大模型面试的一些准备,参考网络上各种大模型面经的学习笔记。
填坑中ing…
1.transformer 八股文
2.attention计算方式以及参数量,attention layer手写,必考。
3.NLU以及NLG各种任务的差异。
4.tokenizer的细节,tokenizer的计算方式,各种tokenizer的优缺点。
5.各种norm方式的优缺点。
6.bert参数量的推演,任何一个transformer结构参数量的推演,和显存占用关系的推演。
1.在指令微调中,如何设置、选择和优化不同的超参数,以及其对模型效果的影响?
2.在指令微调中,如何选择最佳的指令策略,以及其对模型效果的影响?
3.llama, glm,bloom等现有大模型的数据处理,训练细节,以及不足之处模型架构的优化点,包括但不限于attention, norm, embedding
4.解决显存不够的方法有哪些?
5.请解释P-tuning 的工作原理,并说明它与传统的 fine-tuning方法的不同之处。
6.介绍一下Prefix-tuning的思想和应用场景,以及它如何解决一些NLP任务中的挑战
7.Lora的原理和存在的问题讲一下?
8.bf16,fp16半精度训练的优缺点
9.如何增加context length 模型训练中节约显存的技巧。
10.RLHF完整训练过程是什么?RL过程中涉及到几个模型?显存占用关系和SFT有什么区别?
11.RLHF过程中RM随着训练过程得分越来越高,效果就一定好吗?有没有极端情况?
12.encoder only,decoder only,encoder-decoder 划分的具体标注是什么?典型代表模型有哪些?
1.Megatron以及deepspeed实现原理,各种参数以及优化策略的作用
2.模型训练以及推理中的显存占用各种混合精度训练的优劣
3.deepspeed的特点是什么?各个zero stage都有什么用?
1.除了loss之外,如何在训练过程中监控模型能力?
2.如果想全面的评测模型能力,有哪些维度以及数据集?评测指标等评测中比较重要的部分要了解.
3.如何评测生成,改写等开放性任务?
4.zeroshot和Fewshot具体做法的区别?
1.bloom,llama, glm等开源模型的数据来源,配比,以及不足之处
2.cot以及ic能力是如何涌现的?与预训练数据有何关系?
3.数据处理的重要步骤,如何保证预训练以及sft时候的数据多样性,数据质量,数据数量等,包括但不限于去重,质量筛选,敏感及有害信息过滤,各种来源数据配比对于模型能力的影响。
作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料
包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/1007970
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。