当前位置:   article > 正文

NLP-D22-cs224n&UNICORN&多层感知机&房价预测kaggle_kaggle波士顿房价预测多层感知机参数

kaggle波士顿房价预测多层感知机参数

–0519今天0430起床的,早上开始看cs224n,感觉老师好可爱!
现在开始读论文啦!

一、Unicorn

—0558感觉还是有创新的!但是一时间说不上来?可能是时间与关系在溯源图中的综合???先干饭!

–0621吃饭的时候看了cs224n,讲的很细。主要讲了word2vec,具体是如何去做word2vec这件事。
1、用中心词预测周围词
2、用两套向量,分别表示这个词作为中心词和作为周围词时的向量表示
3、优化目标:预测准确----》数学表达:P(预测的周围词|已知的中心词)=把所有词都当做中心词这样做一遍【两词之间的相似度/(字典中所有词和已知中心词的相似度求和)】
这里用两词之间的相似度近似其被预测的可能性,也就是认为,如果两词越相近,就越可能被预测出。
我们希望优化目标越大越好,通过一系列变换(加负号,除以整个字典大小),变成最小化问题,用梯度下降解决(看这意思,老师好像想开始讲梯度下降了,好细啊)

----0627继续读论文,今天读完background就去撸代码!
—0720看到不少专业词汇,好困,想趴一会。。。

—0746复习一下昨天框架的api,就去收拾宿舍了!
注意:
1、ReLU的大小写
2、normal是在torch.init中的

3\dropout的手撕和简洁实现
(1)简洁实现
在这里插入图片描述
(2)手撕
在这里插入图片描述
这里的简洁主要是说,在使用dropout上。

之所以手撕时没有直接使用nn.Sequential()是因为需要判断是在训练还是在测试,在测试时不用dropout,所以不能直接用sequential,需要加入判断逻辑,用继承nn.Module来更加灵活地定义网络。。

框架帮我们自动在dropout层(nn.Dropout)完成了对于训练和测试的判断,使我们直接能将其写在nn.Sequential中。

4\注意optim和init的位置
torch.optim.SGD()
nn.init.normal_

5\感觉正则化这块weight-decay和dropout理解的不是特别好,可以再去看下视频,至少解决两个一起用,效果会不会更好这个问题。

—1055去干饭!

—1507突发了很多事,现在才能回来学习。
中午吃饭的时候又看了下dropout,其实也是一种正则(约数w的),但是没有被证明啦。不过最先提出的时候是想着增加数据的扰动,在源头进行dropout已经被证明啦!

—1607不想学了,想去跑步了。。。

----1900感觉有惯性,还是回来做题看翻译了,放松不下来啊。

—1928今天很快,去看下翻译,应该还有时间敲pytorch

—2002看完翻译了鹅鹅鹅犹豫是休息一下还是看pytorch

—2019看了一小会cs224n,虽然能听懂,但还是想先看李宏毅老师的课程再来听这个,感觉理解会更深刻。

----2032确实不想刷视频了鹅鹅鹅去做核酸叭顺便看看沐沐。晚上有时间回来敲代码。

–2123回来了,继续写pytorch了!
1、slice使用
slice是切片对象
https://www.runoob.com/python/python-func-slice.html
2、pd.Series用法

—2229代码敲完了,感觉尽管是很简单的比赛,实际做起来都这么复杂,自己都不一定能写明白。明天看下剩下的小结部分,然后自己手撕一遍整个流程。
先去睡了!晚安

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/134704
推荐阅读
相关标签
  

闽ICP备14008679号