赞
踩
非常感谢蔡同学提供的复习方案
建议用电脑端通过目录复习,因为手机端只能显示三级以下的目录
或者使用其他同学的复习大纲,不会的知识点可以点开此博客查看对相应知识点的介绍
如果你觉得对你有帮助的话请不要吝啬手中免费的赞哦,谢谢啦!
因本人能力有限,文中难免有错误的地方,如发现欢迎指正
题型 | 分数占比 |
---|---|
单选 | 10 × 2 10\times 2 10×2 |
填空 | 10 × 2 10\times 2 10×2 |
简答 | 4 × 5 4\times 5 4×5 |
计算 | 2 × 10 2\times 10 2×10 |
论述 | 2 × 10 2\times 10 2×10 |
五感:视、听、味、嗅、触觉
其中,视觉是信息量最大的系统( 60 % ∼ 90 % 60\%\sim 90\% 60%∼90%)
图像理解是对图像的语义理解
图像理解是:
(1) 以图象为对象
(2) 以知识为核心
研究:
(1) 图像中的目标
(2) 目标间的相互关系
(3) 图像中的场景
(4) 如何应用场景
图像理解的三个层次:
如下图
图像理解的目的:
图像理解系统的基本组成:
从解剖学看:由眼球和视神经系统组成
从物理结构看:由光学系统、视网膜、视觉通路组成
下图是视觉系统的物理结构图:
人眼对亮度的感觉因光照条件不同而不同,因此人眼对亮度的感知是主观亮度
不知大家有没有注意到这样的现象:
(1) 晚上刚关灯睡觉时眼前会一片漆黑,但是当过一会后就会慢慢看清周围的物体。这时突然从明亮的环境进入到黑暗的环境,人眼对亮度的感知相对不那么敏感
(2) 从黑暗的环境突然进入到明亮的环境会感到很刺眼,但过一会之后就会好很多
指后兴奋的神经元会抑制与之相邻的已兴奋神经元
就是刺激某个神经元使其兴奋,再刺激与之相邻的神经元使其兴奋,后面兴奋的神经元会对前面兴奋的神经元有抑制作用
侧抑制的现象:(我也不知道为什么会有这样的现象)
现象一
现象二
指视觉的主观感受在亮度有变化的地方出现虚幻的明亮或黑暗的条纹
如下图所示:
马赫带效应是由侧抑制引起的
马赫带效应的解释是:
人类视觉系统有增强边缘对比度的机制
指光照视网膜能改变该神经元活动的区域
由定义可知,感受野是视网膜上的一块区域
当光照射到这片区域时会使神经元兴奋
而光照感受野之外对神经元放电无影响
人眼的亮度感觉不会随着物体亮度的消失而立即消失,而有一个过渡时间,这就是视觉惰性
视觉惰性的一个应用就是电影放映
当光作用于眼睛中央凹时,反应时最短。距离中央凹越远反应时越长
主管轮廓:
空间错觉:
单色模型视觉模型最简单的模拟是由一个低通滤波器后接一个高通滤波器组成
发射光三原色:红、绿、蓝(RGB)
反射光三原色:蓝绿、品红、黄(CMY)
其他任何颜色都能由这三种颜色混合而成
二维亮度函数:
更普遍的亮度函数:
单位长度(英寸)的像素点数
图像所包含的灰度总数称为灰度级
先有邻域后有邻接
有两像素点 p ( x , y ) , q ( s , t ) p(x,y),q(s,t) p(x,y),q(s,t)
用于灰度图像,有 { + , − , × , ÷ } \{+,-,\times,\div\} {+,−,×,÷} 四种运算
用于二值图像,有 { 与 , 或 , 非 } \{与,或,非\} {与,或,非} 三种种运算
z = ∑ i = 1 9 w i z i z=\sum\limits_{i=1}^9w_iz_i z=i=1∑9wizi
有两种链码:
4 链码
8 链码
四链码表示为
M
4
=
10103322
M_4=10103322
M4=10103322
原链码具有平移不变性,但不具备旋转不变性和唯一性
取值最小的原链码
M
4
=
01033221
M_4=01033221
M4=01033221
归一化差分码具有平移不变性和唯一性,但不具有旋转不变性
差分码的计算公式为:
b
i
=
(
a
i
−
a
i
−
1
)
mod
4
or
8
b_i=(a_i-a_{i-1})\ \text{mod}\ 4\ \text{or}\ 8
bi=(ai−ai−1) mod 4 or 8
M 4 = 33133030 M_4=33133030 M4=33133030
差分码具有平移不变性和旋转不变性,但不具有唯一性
取值最小的差分码
M
4
=
03033133
M_4=03033133
M4=03033133
归一化差分码具有平移不变性、旋转不变性和唯一性
用归一化差分码表示边界,就是边界的形状数表示
形状的阶:序列长度
满足齐次定理和叠加定理的系统称为线性系统
平移不变系统
线性和平移不变性是两个独立的特性,两者并无关联
一维离散卷积一个好用的方法就是不进位乘法,具体算法参考信号与系统
二维离散卷积求法
为什么要有变换:
正交变换的范式是:
之所以称为正交变换,是因为:
当二维正向变换核
t
(
x
,
y
,
u
,
v
)
t(x,y,u,v)
t(x,y,u,v) 满足
t
(
x
,
y
,
u
,
v
)
=
t
1
(
x
,
u
)
t
2
(
y
,
v
)
t(x,y,u,v)=t_1(x,u)t_2(y,v)
t(x,y,u,v)=t1(x,u)t2(y,v) 时
称此正交变换具有可分离性
已知:
正交变换的矩阵表达:
离散余弦变换是离散傅里叶变换的一种特殊形式
优点:离散余弦变换相对离散傅里叶变换具有更好的频域能量聚集密度
一个应用:jepg 图像所使用图像压缩算法就是离散余弦变换
小波变换提出的原因:
为了解决傅里叶变换在分析频率随时间变化的非平稳信号时对各频率成分出现的时刻无法区分的问题
从傅里叶变换到小波变换,经历了以下过程:
傅里叶变换
→
\rightarrow
→ 窗口傅里叶变换
→
\rightarrow
→ 小波变换
优点:与傅里叶变换相比,沃尔什变换只存在实数的加、减法运算而没有复数的乘法运算,使得计算速度快、存储空间少,有利于硬件实现,对实时处理和大量数据操作具有特殊吸引力
缺点:压缩效率低,所以实际使用并不多
沃尔什矩阵的构造规律:
2
×
2
2\times 2
2×2 变换核
W
2
=
[
1
1
1
−
1
]
\mathbf{W}_2=
4
×
4
4\times 4
4×4 变换核
注意观察和 W 2 \mathbf{W}_2 W2 的关系
8
×
8
8\times 8
8×8 变换核
注意观察和 W 4 \mathbf{W}_4 W4 的关系
虽然沃尔什矩阵的构造规律没那么明显,但还是有一些规律的
需要注意的是:沃尔什变换的正反变换核都是一样的
本质上是一种特殊排序的沃尔什变换,因此正反变换核也一样
哈达玛矩阵的构造规律:
图像增强的目的:
图像增强的特点:
图像增强的方法可分为空域法和频域法
原理:
将图像的灰度直方图变得平直
算法可分为三步:
下面通过实例进一步理解:
设有一副图像的直方图如下
计算各个灰度的累计概率
确定映射关系
这里解释以下表格第五行第三列的 3 3 3 的计算,其他的同理
(1) 0.44 × 7 = 3.08 0.44\times 7=3.08 0.44×7=3.08,其中 7 为图像的灰度级 8 8 8 减去 1 1 1( L − 1 L-1 L−1)
(2) 3.08 3.08 3.08 经过四舍五入后为 3 3 3,代表将原图像的灰度为 1 的像素变为灰度为 3 的像素
逐个像素点遍历整个图像,根据映射关系做变换
因为题目没给出原图,因此无法进行此步骤。此步骤计算较为繁琐,考试不会考到。只需知道如何求出映射关系即可
但可求出变换后的直方图:
变换后图像灰度级 | 1 | 3 | 5 | 6 | 7 |
---|---|---|---|---|---|
变换后个灰度级的像素数 | 790 | 1023 | 850 | 985 | 448 |
变换后图像的直方图 | 0.19 | 0.25 | 0.21 | 0.24 | 0.11 |
因进行了四舍五入取整运算,因此结果并不是各个灰度级的概率分布都相等,但也相差不大,近似于相等 |
优点:
缺点:
直方图规定化是给定一个目标直方图,你需要做的是找到原直方图到目标直方图的映射关系
直方图规定化与直方图均衡化的不同点在于:
直方图均衡化已经确定了目标直方图(是一个平直的直方图)
而直方图规定化的目标直方图由题目给出,可以是任何一种直方图
直方图均衡化可看作一种特殊的直方图规定化
具体算法不再赘述,可自行演算下面例题:
图像平滑的目的:去除或衰减图像中噪声和假轮廓
模板矩阵一般具有以下规律:
M
=
1
∑
i
=
1
9
m
i
[
m
1
m
2
m
3
m
4
m
5
m
6
m
7
m
8
m
9
]
\mathbf M=\frac{1}{\sum_{i=1}^9m_i}
通过模板矩阵在图像中滑动,注意将模板中心与对应像素相重合
然后计算加权和并将结果赋予模板中心所对应的像素
掩膜矩阵法有以下几种方法:
多幅图像平均法是对同一物体重复采集多张图,然后对这些图片求平均的方法来降噪
这种方法适用与静止的物体
此方法与模板矩阵法等效
噪声和边缘等变化剧烈的信号分布在高频分量
使用低通滤波器能一定程度上滤除一些高频分量,从而达到降噪的作用,但同时也会滤除一些边缘信息
原理:用局部中值代替局部平均值
中值滤波常用窗口:
线形
方形
十字形
菱形
优点:
锐化目的:加强目标轮廓
一般对图像先做平滑再做锐化,因为平滑过程中可能会损失一些边缘信息,而锐化则是将边缘增强。图像先平滑后锐化能去除图像的噪声
一维信号锐化:
只要理解了一维锐化,那么对于二维的锐化的理解就会容易的多
锐化公式:
g
(
x
,
y
)
=
f
(
x
,
y
)
−
α
∇
2
f
g(x,y)=f(x,y)-\alpha\nabla^2 f
g(x,y)=f(x,y)−α∇2f
其中:
由公式可推出拉普拉斯锐化模板:
由上面的模板可知拉普拉斯锐化模板的特点是:
矩阵内所有元素的和为 1
需要注意的是,在模板(3x3)移动是从图像的第二行第二列开始的,而非从第一行第一列开始。因为图像的四周边界一般不做处理
前面说过,边缘信息一般处于高频分段,因此将图像经过高通滤波器后留下的是边缘信息
常见的高通滤波器有:
一幅图片 f ( x , y ) f(x,y) f(x,y) 可分解为:
同态滤波的思想就是:压缩 i ( x , y ) i(x,y) i(x,y),增强 r ( x , y ) r(x,y) r(x,y)
图像复原的目的:消除或减轻在图像获取及传输过程中造成的图像品质下降即退化现象,恢复图像的本来面目
图像退化可抽象为以下模型:
不含噪声模型
g ( x , y ) = f ( x , y ) ∗ h ( x , y ) g(x,y)=f(x,y)*h(x,y) g(x,y)=f(x,y)∗h(x,y)
考虑噪声模型
时域公式
g
(
x
,
y
)
=
f
(
x
,
y
)
∗
h
(
x
,
y
)
+
n
(
x
,
y
)
g(x,y)=f(x,y)*h(x,y)+n(x,y)
g(x,y)=f(x,y)∗h(x,y)+n(x,y)
频域公式
G
(
u
,
v
)
=
F
(
u
,
v
)
H
(
u
,
v
)
+
N
(
u
,
v
)
G(u,v)=F(u,v)H(u,v)+N(u,v)
G(u,v)=F(u,v)H(u,v)+N(u,v)
图像恢复的原理:
已知退化图像
g
(
x
,
y
)
g(x,y)
g(x,y),获取
h
(
x
,
y
)
h(x,y)
h(x,y) 和
n
(
x
,
y
)
n(x,y)
n(x,y),然后求出原图
f
(
x
,
y
)
f(x,y)
f(x,y) 的估计
f
^
(
x
,
y
)
\widehat{f}(x,y)
f
(x,y)
方法可分为:
由退化模型
g
=
f
∗
h
+
n
g=f*h+n
g=f∗h+n,可知
噪声
n
=
g
−
f
∗
h
n=g-f*h
n=g−f∗h,其中
g
,
f
,
h
g,f,h
g,f,h 已知
无约束恢复的原理既是找出估计
f
^
\widehat f
f
使
噪声
∣
∣
n
∣
∣
2
=
∣
∣
g
−
f
^
∗
h
∣
∣
2
||n||^2=||g-\widehat f*h||^2
∣∣n∣∣2=∣∣g−f
∗h∣∣2 最小
由频域退化模型
G
=
F
⋅
H
+
N
G=F\cdot H+N
G=F⋅H+N,可知
G
H
=
F
+
N
H
\frac{G}{H}=F+\frac{N}{H}
HG=F+HN
则
F
^
≈
G
H
=
F
+
N
H
\widehat F\approx \frac{G}{H}=F+\frac{N}{H}
F
≈HG=F+HN
略
边缘的分类:
阶跃状
屋顶状
边缘检测基本思想:
由图知,边缘为:
因此,要获取边缘信息,就需对图像进行微分
边缘检测的基本步骤:
原理;计算水平、垂直方向的一阶导数,然后合成梯度,然后用幅度阈值法对梯度进行二值化,得到的图像既是边缘图
梯度模板:
获得水平垂直方向导数:
G
h
=
F
∗
W
h
G
v
=
F
∗
W
v
合成梯度:
幅度阈值法二值化:
B
(
m
,
n
)
=
{
1
,
G
(
m
,
n
)
≥
b
0
,
else
\mathbf B(m,n)=
下面是正交梯度法的一个示例:
Roberts 梯度算子法与正交梯度法类似,只不过是分别求出左上、右上的方向导数而已
Roberts梯度算子法的模板:
下面是roberts算子检测的示例:
平均差分法与正交梯度法的区别是:
平均差分法先求平均再求导数,多了个求平均的过程,能一定程度上抑制噪声
Prewitt梯度算子法的模板:
Sobel算子法的模板:
上面说过,降噪同时也会损失一些边缘信息,但由于 sobel算子法的加权作用,他得到的边缘相对prewitt算子更清晰一些
下面是prewitt检测和sobel检测的示例:
方向梯度法可以在检测边缘同时获得边缘的方向
其原理是:
对图像求不同方向的方向导数,取模值最大的方向作为边缘的方向,这个值就是边缘的强度
一般求取八个方向的方向导数,其模板如下:
下面是方向梯度法的一个示例:
Canny算子步骤:
应用高斯滤波来平滑图像,目的是去除噪声
计算图像的梯度(一阶导数)
利用如下核对原图
F
\mathbf F
F 进行卷积分别得水平梯度
G
h
\mathbf G_h
Gh、垂直梯度
G
v
\mathbf G_v
Gv
通过以下公式获得梯度模值矩阵:
G
=
G
h
2
+
G
v
2
\mathbf G=\sqrt{\mathbf G_h^2+\mathbf G_v^2}
G=Gh2+Gv2
通过以下公式获得梯度幅角(方向)矩阵:
θ
=
arctan
G
v
G
h
\mathbf \theta=\arctan\frac{\mathbf G_v}{\mathbf G_h}
θ=arctanGhGv
应用非最大抑制(NMS)消除边缘误检测
应用双阈值法检测和连接边界
设定两个阈值(一个大,一个小)将梯度图二值化,得到高阈值边缘图和低阈值边缘图
高阈值边缘图较为断续,通过搜索低阈值边缘图的8邻域来填补高阈值边缘图的断点处,使其变得连续
下面是用Canny算子求边缘的一个示例:
顾名思义,二阶导数算子法就是利用图像的二阶导数为0的点获取边缘信息
注意不是所有二阶导数值为0的点都是边缘点
此方法在讲锐化的时候讲过了,忘记的同学点击传送门
优点:
缺点:
下面是拉普拉斯算子求边缘图的示例:
LoG(Laplacian of a Gaussian) 算子法的原理:
先用高斯算子(低通滤波器)对图像进行平滑(降噪),再用拉普拉斯算子检测边缘
又称 Marr 算子
下面是LoG算子求边缘图的示例:
下面是以上讲到的所有算子(除canny)求边缘的示例:
图像分割的定义:
将图像(集合)
R
R
R 分割成互不重叠的非空子集(子区域)
R
1
,
R
2
,
⋯
,
R
n
R_1,R_2,\cdots,R_n
R1,R2,⋯,Rn
并满足
R
i
,
i
=
1
,
2
,
⋯
,
n
R_i,\ i=1,2,\cdots,n
Ri, i=1,2,⋯,n 为连通区域
连通区域为一片区域,在这区域内像素点的灰度值相近,参考像素点的连通性
图像分割的目的:
图像分割依据的特征:
灰度或颜色
边界
纹理
语义
如下图,依据的语义有汽车、树木、道路等
图像分割基于的假设:
图像分割的基本思路:
下面结合车牌识别来理解图像分割的基本思路:
图像分割的研究范围:
图像分割所存在的问题:
图像分割的主要算法:
基于阈值的分割算法的原理:
利用背景与目标灰度值的差异,选取一个合适的与之将其分开
优点:
缺点:
直方图法适用与图像的直方图明显有多个峰值的情况
下图为双峰的情况:
此时选择峰底对应的灰度值
T
T
T 作为阈值将背景和目标分割开
数学表达式为:
g
(
x
,
y
)
=
{
1
,
f
(
x
,
y
)
≥
T
0
,
f
(
x
,
y
)
<
T
g(x,y)=
下图为三峰的情况,更多峰也类似:
数学表达式如下
g
(
x
,
y
)
=
{
c
1
,
f
(
x
,
y
)
≤
T
1
c
2
,
f
(
x
,
y
)
≤
T
2
c
3
,
f
(
x
,
y
)
>
T
2
g(x,y)=
缺点:
上面说过直方图法选择谷底作为阈值并非最佳阈值
下面这幅图就能很好的体现
而最佳阈值法就是选取背景的概率密度与目标的概率密度函数值相等的灰度作为阈值
优点:
缺点:
均值迭代法步骤:
均值迭代法是最优分割法的一种特殊情况
假设 p t ( z ) , p b ( z ) p_t(z),p_b(z) pt(z),pb(z) 分别为目标和背景灰度分布的概率密度函数, θ \theta θ 为目标像素占全图像像素的比
则图像分布的概率密度函数为 p ( z ) = θ p t ( z ) + ( 1 − θ ) p b ( z ) p(z)=\theta p_t(z)+(1-\theta) p_b(z) p(z)=θpt(z)+(1−θ)pb(z)
当 p t ( z ) , p b ( z ) p_t(z),p_b(z) pt(z),pb(z) 为正态分布函数,均值为 μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2,方差为 σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ12,σ22
p t ( z ) = p_t(z)= pt(z)=
类间方差法的原理:
寻找一个阈值
T
T
T 使分割结果
R
1
,
R
2
R_1,R_2
R1,R2 满足灰度值类内方差最小,类间方差最大
下面是基于阈值分割的各方法对比:
原理:将相似像素结合起来构成分割区域
按照相似性准则的不同,可将其分为:
优点:
缺点:
下面是区域生长法的演示示例:
原理:先将图像分解为不同区域,再按相似性进行合并
下面是分裂合并法的一个演示示例:
原理:
分割结果特点:
优点:
缺点:
下面是基于形态学分水岭的分割算法的演示示例:
数学形态学图像处理是一种新的图像处理与分析方法
他采用的语言是集合论
这意味着:他的运算是由集合运算来定义的
集合的运算在这里就不赘述了,我的博客有关于集合的讲解,忘记的可以自己去看,传送门
下面所涉及的内容仅考虑二值图像
下面用图像来直观演示腐蚀运算:
由图可知,腐蚀操作其实就是将模板的原点与图像中相应的点对齐,若模板中所有值为 1 的点在图像中对应的点的值也为 1,就赋予图像中的对齐点的灰度值为 1,否则赋予 0
可以将腐蚀类比为集合的与运算
A
⊖
B
A\ominus B
A⊖B 表示用结构元素
B
B
B 腐蚀图像
A
A
A
下面用图像来直观演示腐蚀运算:
由图可知,膨胀操作其实就是将模板的原点与图像中相应的点对齐,若模板中存在值为 1 的点在图像中对应的点的值也为 1,就赋予图像中的对齐点的灰度值为 1,否则赋予 0
可以将膨胀类比为集合的或运算
A
⊕
B
A\oplus B
A⊕B 表示用结构元素
B
B
B 膨胀图像
A
A
A
注意腐蚀和膨胀的结果是赋予原图中与结构元素的原点相对应的位置的像素
开操作就是用结构元素
B
B
B 对图像
A
A
A 先腐蚀后膨胀,记作
A
∘
B
A\circ B
A∘B
则
A
∘
B
=
(
A
⊖
B
)
⊕
B
A\circ B=(A\ominus B)\oplus B
A∘B=(A⊖B)⊕B
开操作的含义就是:B在A的边界内转动时,B中的点所能达到的最远点,如下图
开操作的作用:
使轮廓平滑,去除物体边界的小离散点或尖峰。开操作常用来断开狭窄的间断和消除细小物体及细的突出物
下面是开操作的演示:
闭操作就是用结构元素
B
B
B 对图像
A
A
A 先膨胀后腐蚀,记作
A
∙
B
A\bullet B
A∙B
则
A
∙
B
=
(
A
⊕
B
)
⊖
B
A\bullet B=(A\oplus B)\ominus B
A∙B=(A⊕B)⊖B
闭操作的含义就是:B在A的边界外转动时,B中的点所能达到的最远点,如下图
闭操作的作用:
填充物体内细小的空洞,填补轮廓线中小的断裂,连接两物体间的长细鸿沟
下面是闭操作的演示:
击中和击不中的概念:
击中—击不中变换(HMT):
定义如下:
A
⊛
B
=
(
A
⊖
B
1
)
∩
(
A
c
⊖
B
2
)
A\circledast B=(A\ominus B_1)\cap (A^c\ominus B_2)
A⊛B=(A⊖B1)∩(Ac⊖B2)
其中
A
A
A 为图像;
B
1
,
B
2
B_1,B_2
B1,B2 为结构元素
B
1
B_1
B1 为要求击中部分,
B
2
B_2
B2 为不击中部分(不理解没关系,下面有例子);
A
c
A^c
Ac 为
A
A
A 的补集(各个元素取反)
这里需要注意一下
A
c
A^c
Ac,如下图
击中—击不中变换的作用:(不想了解原因的直接记作用就行,不用记公式)
定位结构元素
B
B
B 在图像
A
A
A 中出现的位置,用下列公式即可:
A
⊛
B
=
(
A
⊖
B
)
∩
(
A
c
⊖
B
c
)
A\circledast B=(A\ominus B)\cap (A^c\ominus B^c)
A⊛B=(A⊖B)∩(Ac⊖Bc)
注意
A
c
,
B
c
A^c,B^c
Ac,Bc 四周边界外都有无穷多个 1,但为了方便表示腐蚀运算过程,
B
c
B^c
Bc 就只显示框外扩展一个像素
下面引用一下 PPT 上的图片(感觉不是很直观,没有展示到点上,但我没时间画图了,不懂的可以找我讨论)
为了说明原因,这里引出前景、背景的概念
腐蚀运算结果的实质就是得出结构元素(前景)在图像中匹配的原点的集合
因此
A
⊖
B
A\ominus B
A⊖B 只是在图像
A
A
A 中找到与
B
B
B 的前景相匹配的一系列位置而已,而背景不一定匹配
所以需要将背景也匹配,就有了
A
c
⊖
B
c
A^c\ominus B^c
Ac⊖Bc 项,求补运算将前景背景置换,因此匹配的是背景
只是前景的匹配部分与只是背景的匹配部分相交就是
B
B
B 的前景和背景都匹配的部分,也就是
B
B
B 出现的地方了
下面讲一些基本的形态学算法:处理对象是二值图像
原理:
β
(
A
)
=
A
−
(
A
⊖
B
)
\beta(A)=A-(A\ominus B)
β(A)=A−(A⊖B)
其中
β
(
A
)
\beta(A)
β(A) 为图像
A
A
A 的边界图,
B
B
B 为结构元素
下面是示例:
原理:
下面是示例:
在讲纹理分析之前,先对一些名字做出解释:
纹理的定义:
纹理是一种普遍存在的视觉现象,我们很容易地能够感受他们,但却很难精确定义他们,下面是两种常用的定义
定义1:按一定规则对元素(elements)或基元(primitives)进行排列所形成重复模式
定义2:如果图像函数的一组局部属性是恒定的,或者是缓变的,或者是近似周期性的,则图象中的对应区域具有恒定的纹理
下面是一些纹理图:
纹理的基本特征
纹理分析的定义
纹理分析是指通过一定的图像处理技术提取出纹理特征参数,从而获得纹理的定量或定性描述的处理过程
纹理分析包括:纹理分类、纹理分割、从纹理中恢复形状等
纹理分析常用于:产品检验、医学图像分析、文档处理、遥感图像分析等
纹理描述
纹理特征提取,通过一定的算法提取图像纹理特征,从而获得对纹理的定量描述的过程
换言之就是找到能够描述纹理特征的向量,使缩小纹理类内距离同时增大类间距离
纹理分割
根据纹理特征将图像划分为互不相交的若干区域,以确定图像中不同纹理的边界
纹理分类
纹理分类是将未知类别纹理图像正确归类为已知纹理类型
下面是分类框架:
下面这幅图展示了纹理分类和纹理分割
纹理合成
纹理合成是由纹理的基元合成纹理图像
灰度共生矩阵的求法:
假设灰度图像
A
A
A 的灰度级为
L
L
L
由上述可得共生矩阵的形式如下图
位移矢量
d
=
(
a
,
b
)
d=(a,b)
d=(a,b) 的选取:
需要根据纹理的周期分布特性来选
如果纹理较细,偏移量
a
,
b
a,b
a,b 选择较小的值
下面是灰度共生矩阵求取的一个例子:
图像大小为
5
×
5
5\times 5
5×5,灰度级为
3
3
3,位移矢量
d
=
(
1
,
1
)
d=(1,1)
d=(1,1)
由灰度共生矩阵可获得的信息:
灰度共生矩阵的总结:
存在问题:
计算机视觉是用计算机来模拟人的视觉机理来获取和处理信息的能力
计算机视觉与一些邻域的关系
几何+测量+解释=视觉
计算机视觉的一些应用:
Marr 的简介:
Marr 是计算机视觉的奠基人,他将心理学、人工智能和神经生理学的研究结果结合起来
Marr 的视觉计算框架:
视觉是一个信息处理任务,有三个层次
Marr 将图像退的形状信息的过程分为三个表象阶段:
主要思想:只根据图像数据本身不能对相应的物体空间结构提供充分的约束,需要加入先验知识
在人类视觉信息处理中,总是迅速选择少数几个显著对象进行优先
处理,而忽略或舍弃其他的非显著对象
视觉注意的研究意义:
略
分类与检测的区别:
略
两阶段法将目标检测分为两个阶段:
常见两阶段法有:
单阶段法直接在图像上进行目标检测,不生成候选框
常见单阶段法有:
两阶段法:准确率高,但是速度相对较慢
单阶段法:速度快,但准确率相对低
超像素是一系列像素的集合,这些像素具有相似的颜色、纹理等特征,同时距离也比较近
如下图,白色线内的区域内的像素集合就是超像素
语义分割就是将图像中的每个像素赋予一个类别标签(如:人、汽车、道路、树木等等)
如下图是语义分割的一个示例:
语义分割只能判断类别,无法区分个体
上图中一个像素如果被标记为红色,我们可以知道他是属于人这个类别,但如果两个像素都被标记为红色,我们无法区分这两个像素是否属于同一个人
与目标检测相比,目标检测给出目标框(bounding box),而实例分割给出的是 mask
与语义分割相比,实例分割不需对每个像素进行标记,只需标记感兴趣物体的边缘轮廓即可。因为每个人都有不同颜色的轮廓,因此可以区分个体
Mask-CNN 方法就是一种实例分割算法
注意 Mask-RCNN 是目标检测算法,别搞混了
下面是一个实例分割的示意图:
全景分割是实例分割和语义分割的结合,既可以区分类又可以区分类内实例
下面是演示示例:
早期的新想法
U-net 方法
DeepLab 方法
类 RNN 条件随机场方法
SegNet 方法
PSPNet 方法
RefineNet 方法
GAN 网络
STC 方法
DSRG 方法
L-Net 和 P-Net 方法
ORMAE 方法
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。