赞
踩
寒武纪实习
1.pytorch 用hook 打印中间层输出 不用改forward
https://www.jb51.net/article/241887.htm
2.两个卡并行 希望保持效果:需要 loss/2
3.Linux统计文件数目?不知道
统计文件夹下文件个数,包括子文件
ls -lR | grep “^-”| wc -l
统计文件夹下目录个数,包括子目录
ls -lR | grep “^d”| wc -l
4.Linux管道 树
5.c++创建动态二维数组 int *a=new int[l];
6.batch size大小的影响
7.反向传播传播的是loss对各参数的链式求导
手撕:求一个数阶乘后面的0个数
思路 计算2 5个数 动态规划
优化 保存5个数即可,因为每2个就有个2,每5个有5,2肯定多
商汤实习
1.bert输入
2.transformer self-attention qkv
3.transformer encoder decoder区别qkv上的区别
4.lstm和transformer的 self-attention区别
5.Bert之外的预训练模型,双向lstm,Roberta,xlnet
6.transformer 除以一个dk是为了什么
搜狐实习
手撕:链表找倒数第几个
手撕:找和为七最小长度;应该用滑动窗口
li=[3,1,2,5,4]
tar=7
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。