赞
踩
iclr 2024 oral reviewer 评分 688
使用不同的激活函数时,模型的性能非常相似。
模型在微调阶段很快恢复了其原本的性能,其中Llama(绿色线条)完美的达到了ReLU插入之前的预测准确率
对LLM的不同部位进行稀疏化后,模型的zero-shot精度变化并不明显,但是计算量的差异很大