NLP-D31-《动手学pytorch》完结&BERT&Layer_norm_bertlayernorm

作者：从前慢现在也慢 | 2024-05-27 09:23:41

踩

bertlayernorm

---------0439我感觉今天终于可以阶段性地看完沐沐的课了！！！狂喜！马上终于可以看看宝可梦了嘿嘿嘿！

在这里插入图片描述

全局来看，应该也就只有一个位置嵌入参数
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

参数传几维，就对几维座layer_norm,不过传的时候shape要匹配。
传最后一维
在这里插入图片描述
参考：https://blog.csdn.net/qq_37541097/article/details/117653177
这里面应该是把【768这维给norm了】。这个细节之后再研究吧。

传3维，官方文档也很给力
在这里插入图片描述
参考：

-------0522先干个饭

在这里插入图片描述

看到最后一节啦！！！！沐沐大大棒棒！！！

----06020看完啦！！！又被种草了《实用机器学习》，不过有一说一，本来就是想看的hhhhhhhh
现在来把BERT代码敲完hhh

—0638ee网络冲了一波浪，现在就学hhh

做nsp任务时，留下batch_size层，把接下来的维展开，用单层感知机进行预测。
在这里插入图片描述

在get_batch_loss中会做前向传播，得到nsp_y_hat，因此，在最后的train中，也只需要传入真实的nsp_y供其计算损失即可。
在这里插入图片描述

—0837帮同学回答了一些毕设相关的问题，还是蛮开心的hhh，继续写bert啦

得到cls的最终表示后，再放入一个hidden和一个linear层，得到最终正向推理结果。
在这里插入图片描述
在定义了正向推理（net）过程后，便可以train了，也就是根据目标的y不断地优化模型参数。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/630944