赞
踩
一个LLaMA-6B的数据类型为Int8 模型参数 6B1bytes = 6GB 梯度 6B1bytes = 6GB 优化器参数 Adam 2倍模型参数:6GB*2 = 12GB 训练共24GB的显存
模型参数 6B*1bytes = 6GB 推理共6GB的显存
1, 多头注意力 2. Transformer可以取代CNN,也就是使用Transformer可以做视觉