赞
踩
---------0439我感觉今天终于可以阶段性地看完沐沐的课了!!!狂喜!马上终于可以看看宝可梦了嘿嘿嘿!
全局来看,应该也就只有一个位置嵌入参数
参数传几维,就对几维座layer_norm,不过传的时候shape要匹配。
传最后一维
参考:https://blog.csdn.net/qq_37541097/article/details/117653177
这里面应该是把【768这维给norm了】。这个细节之后再研究吧。
传3维,官方文档也很给力
参考:
-------0522先干个饭
看到最后一节啦!!!!沐沐大大棒棒!!!
----06020看完啦!!!又被种草了《实用机器学习》,不过有一说一,本来就是想看的hhhhhhhh
现在来把BERT代码敲完hhh
—0638ee网络冲了一波浪,现在就学hhh
做nsp任务时,留下batch_size层,把接下来的维展开,用单层感知机进行预测。
在get_batch_loss中会做前向传播,得到nsp_y_hat,因此,在最后的train中,也只需要传入真实的nsp_y供其计算损失即可。
—0837帮同学回答了一些毕设相关的问题,还是蛮开心的hhh,继续写bert啦
得到cls的最终表示后,再放入一个hidden和一个linear层,得到最终正向推理结果。
在定义了正向推理(net)过程后,便可以train了,也就是根据目标的y不断地优化模型参数。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。