赞
踩
经过一段时间的论文积累,现在开始进行代码实践,但在看代码时总会有困惑,因此记录。
问题1:用RRU源码试图训练CASIA时会报错,比如could not broadcast input array from shape (256,256,4) into shape (256,256)的问题
解决:需要对数据预处理部分的代码进行修改
问题2:如果对原始图像进行切割再送入模型,会面临原始图片大小与预测图片大小不一致的问题
解决:参考Bubbliiiing的视频和博客与网友的学习笔记
补充:其实,通常一般推荐使用直接拉伸的方式去做图像Resize,原因是增加padding填充后会对网络带来一定噪音,影响模型准确性。最重要的是保证模型训练和模型推理时的操作方式一致。
问题3:经过层层网络,最后得到的结果是灰度图(通道为1),而不是RGB图(通道为3),而原始的训练mask是灰度图还是RGB图?
思路:看图片的信息,由于每个点若位深度为8,即8bit,那么就是灰度图。若位深度为24,即RGB图。查看得知原始的mask是RGB图。
问题4:PIL、numpy、tensor的关系?
tensor和numpy是可以互相转换的。
问题5:区别RGB和BGR?
OpenCV默认使用BGR,PIL、plt的话是RGB
问题6:什么时候HWC,什么时候BCHW?
已知用PIL的Image时,需要Transpose(2,0,1)
需要解决的问题:1.如何计算各种性能?对应的代码? 2.加通道空间 3.学习HRNet和DenseNet 4.如何画ROC曲线 5.预训练问题
记录1:由UNet看分层提取的特征含义 链接
一些思考:双流结构不错;减少池化,因为池化会降低分辨率;需要关注注意力机制(注意力机制是自动生成权重);ASPP 模块;添加残差链接;注意模型到时候可能遇到的问题:模型发散、过拟合、欠拟合、梯度爆炸、缺少BN;基于backbone的代码怎么改,densenet为backbone不错;篡改检测和一般的语义分割不同,一般的语义分割像素点的值代表类别,猫,狗……等,而篡改检测为0和255,用于区分篡改区域和未篡改区域
通道注意力,空间注意力:链接
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。