知新_RL

这个屌丝很懒，什么也没留下！

热门标签

2020 AI领学计划 | 人工智能如何看懂图像笔记_ai 看懂图片

作者：知新_RL | 2024-03-26 06:22:46

踩

ai 看懂图片

文章目录

CNN Basic
人工智能和计算机视觉辅助肺炎医疗影像诊断
Keras框架——手机图片图像分类

CNN Basic

卷积神经网络——基本原理与算法
在这里插入图片描述

图像分类
目标检测
图像分割
第一张图就是图像分割，把车识别成蓝色，人行道识别成粉色，人识别成红色
行为识别
越深的地方越发红，离得近的地方发绿
深度估计
两个人骑在自行车上，试别出图像的内容

目前的智能驾驶，主要依靠CNN来识别路况

一维卷积

在这里插入图片描述
翻转g，然后滑动，能得出一块区域相加为4

二维卷积

在这里插入图片描述
从一维变成了二维，原理一样。

CNN实际上做互相关运算

卷积向前计算

在这里插入图片描述
一般把前面绿色的称为原始图象，而把橙色称为卷积核，做互相关运算，简称为卷积运算

卷积核

在这里插入图片描述
如左图所示，先定义八种不同的卷积核，11 sharoness相当于亮的地方更亮。12 看起来是横向的，但实际上提取的是竖向，横向的忽略掉

卷积核目的就是找图片的边边角角，一些特征

卷积-激活-池化

relu函数：大于0的部分不变，小于0的部分变成0或者非常小的值。
conv图象暗的地方相当于小的值，经过激活函数到relu后，之前暗的地方都没了。在池化poolling，每四个点变成一个，点变粗了，但是特征没有变，相当于降维

一次卷积要经历卷积-激活-池化三步才能完成

三个不变性

在这里插入图片描述
卷积无论图象大小位置变化都不影响卷积。

升维 && 降维

在这里插入图片描述
用两个卷积核分别做卷积，得到两个特征值，从一张绿色图片编程了两张白色图片，一通道变成了两通道，相当于升维了。

原图是RGB三维，分别做卷积，得到三张特征值，然后在相加，本来三通道图片变成了一个通道，相当于降维了。
在这里插入图片描述
这是最复杂的一个卷积

第二列中橙色和灰色两个卷积核，卷积核中有三个过滤器，分别对应三个通道上

b1 b2两个偏移值是在结果上相加

步长 && 填充

在这里插入图片描述
左图跳两步

右图，卷积前加上一圈0，这样就可以得到一个4*4的特征，特征也会更加明显
在这里插入图片描述
搭建卷积神经网络，结果一般都是会降维，越来越小，所以最后的结果矩阵到底多大，参照上图的公式计算

K卷积核相当于对X提取横边，得到Y

卷积核的训练是一个反向的过程，卷积核的推导其实非常的麻烦，现在已知 X Y 推导 K

在这里插入图片描述

” * “代表卷积符号

池化层的前向计算与反向传播

在这里插入图片描述
Max Pooling ：最大值
Average Pooling：平均值

神经网络的实验

在这里插入图片描述

识别手写数字，这里用了两层的卷积神经网络，Conv卷积、 Relu激活、 Pooling池化、卷积、激活、池化、 FC（全连接）、Batch Normalization批量归一化、激活、 FC（全连接）、输出层Softmax

在这里插入图片描述
神经网络三大特性
全值共享：卷积过程中卷积核不变
局部感受：每次卷积只对覆盖的区域操作
下采样：池化过程

三通道卷积核在三通道滑动，最后相加输出灰度图象

人工智能和计算机视觉辅助肺炎医疗影像诊断

（如何使用卷积神经网络——肺炎诊断）

在这里插入图片描述
在农业的应用

能预测出结果，但是是一个黑箱操作，为了让其更加安全，需要赋予可解释性

上传一张图片，找出一张概率最大的图片输出结果

同样的目标识别成相同颜色，是语义分割，分开分割是实例分割
在这里插入图片描述

近十年的图像分类错误率越来越低，深度学习深度越来越深，ResNet解决了深度层数的问题

对于数据集需要进行旋转缩放裁剪等工作，扩充数据集，把很小数据集变成一个很大的数据集
防止过拟合
对于期待有鲁棒性的特点，进行这个特点变化的增强数据集
在这里插入图片描述
在混淆矩阵中，着重关注最左下角的数据

对于可解释性，本文采用热力图的解释，通过计算，求得每一个类别在原图关注的区域，达到定位和分割，叫做弱监督学习或者半监督学习，最后把每一个map乘以自己的权重，得到最终的热力图结果
在这里插入图片描述