赞
踩
说明:笔记是跟着B站黑马程序员的openCV课程时做的
课程资料可以在黑马程序员评论区获取
想要获取笔记PDF或者md格式的朋友,点击下面链接获取:
OpenCV学习笔记点我获取
pip install opencv-python
pip install opencv-contrib-python
## 尽量保持两个库安装的版本,比如我都是4.9.0.80
opencv-contrib-python 4.9.0.80
opencv-python 4.9.0.80
import cv2
import matplotlib.pyplot as plt
import numpy as np
参数:
注意:在调用显示图像的API后,要调用cv.waitKey()给图像绘制留下时间,否则窗口会出现无响应情况,并且图像无法显示出来。
img = cv2.imread('./img/01.jpg')
print(img)
## 图像的显示
cv2.imshow('image',img)
## 等待时间,毫秒级。0表示任意键终止
cv2.waitKey(0)
cv2.destroyAllWindows()
## 第二个参数,设置彩色还是灰度
img = cv2.imread('./img/01.jpg',cv2.IMREAD_GRAYSCALE )
# 以灰度图的形式读取图像
img = cv.imread('messi5.jpg',0)
彩色图
import matplotlib.pyplot as plt
img = cv2.imread('./img/01.jpg')
plt.imshow(img[:,:,::-1])
plt.show()
灰度图
import matplotlib.pyplot as plt
img = cv2.imread('./img/01.jpg',0)
plt.imshow(img,cmap=plt.cm.gray)
plt.show()
参数:
# 路径和保存的图片
cv2.imwrite('nwe_img.png',img)
import numpy as np
import cv2 as cv
import matplotlib.pyplot as plt
# 1 读取图像
img = cv.imread('messi5.jpg',0)
# 2 显示图像
# 2.1 利用opencv展示图像
cv.imshow('image',img)
# 2.2 在matplotplotlib中展示图像
plt.imshow(img[:,:,::-1])
plt.title('匹配结果'), plt.xticks([]), plt.yticks([])
plt.show()
k = cv.waitKey(0)
# 3 保存图像
cv.imwrite('messigray.png',img)
# 不指定文件可以捕获摄像头
vc = cv2.VideoCapture()
## 指定文件路径,可以读取视频
vc = cv2.VideoCapture('test.mp4')
## 判断视频能否打得开
if vc.isOpened():
open,frame = vc.read()
else:
open = False
while open:
ret,frame = vc.read()
if frame is None:
break
if ret == True:
## 转换成黑白图
gray = cv2.cvtColor(frame,cv2.COLOR_BGR2GRAY)
cv2.imshow('result',gray)
## 100 是指处理完一帧等待的时间,单位是ms
if cv2.waitKey(10) & 0xFF == 27:
break
vc.release()
cv2.destroyAllWindows()
img =cv2.imread('./img/01.jpg')
cat = img[0:200,0:200]
cv2.imshow('cat',cat)
b,g,r = cv2.split(img)
print(r.shape)
img = cv2.merge(b,g,r)
img.shape
img =cv2.imread('./img/01.jpg')
cur_img = img.copy()
cur_img[:,:,0] = 0
cur_img[:,:,1] = 0
cv2.imshow('R',cur_img)
cv2.waitKey(0)
cv2.destroyAllWindows()
img =cv2.imread('./img/01.jpg')
cur_img = img.copy()
cur_img[:,:,0] = 0
cur_img[:,:,2] = 0
cv2.imshow('G',cur_img)
cv2.waitKey(0)
cv2.destroyAllWindows()
img =cv2.imread('./img/01.jpg')
cur_img = img.copy()
cur_img[:,:,1] = 0
cur_img[:,:,2] = 0
cv2.imshow('B',cur_img)
cv2.waitKey(0)
cv2.destroyAllWindows()
cv2.BORDER_REPLICATE : 复制法,也就是复制最边缘像素
cv2.BORDER_REFLECT : 反射法,对感兴趣的图像中的像素在两边进行复制
cv2.BORDER_REFLECT_101: 反射法,也就是以最边缘像素为轴,对称
cv2.BORDER_WRAP:外包装法
cv2.BORDER_CONSTANT:常量法:常数值填充
top_size,bottom_size,left_size,right_size = (50,50,50,50)
img = cv2.imread('./img/01.jpg')
replicate = cv2.copyMakeBorder(img,top_size,bottom_size,left_size,right_size,borderType=cv2.BORDER_REPLICATE)
reflect = cv2.copyMakeBorder(img,top_size,bottom_size,left_size,right_size,borderType=cv2.BORDER_REFLECT)
reflect101 = cv2.copyMakeBorder(img,top_size,bottom_size,left_size,right_size,borderType=cv2.BORDER_REFLECT_101)
wrap = cv2.copyMakeBorder(img,top_size,bottom_size,left_size,right_size,borderType=cv2.BORDER_WRAP)
constant = cv2.copyMakeBorder(img, top_size, bottom_size, left_size, right_size, borderType=cv2.BORDER_CONSTANT, value=0)
cv2.imshow('B',img)
cv2.waitKey(0)
cv2.destroyAllWindows()
cv.line(img,start,end,color,thickness)
cv.line(img,(0,0),(511,511),(255,0,0),5)
参数:
cv.circle(img,centerpoint, r, color, thickness)
cv.circle(img,(447,63), 63, (0,0,255), -1)
参数:
cv.rectangle(img,leftupper,rightdown,color,thickness)
cv.rectangle(img,(384,0),(510,128),(0,255,0),3)
参数:
cv.putText(img,text,station, font, fontsize,color,thickness,cv.LINE_AA)
cv.putText(img,'OpenCV',(10,500), font, 4,(255,255,255),2,cv.LINE_AA)
参数:
我们生成一个全黑的图像,然后在里面绘制图像并添加文字
import numpy as np
import cv2 as cv
import matplotlib.pyplot as plt
# 1 创建一个空白的图像
img = np.zeros((512,512,3), np.uint8)
# 2 绘制图形
cv.line(img,(0,0),(511,511),(255,0,0),5)
cv.rectangle(img,(384,0),(510,128),(0,255,0),3)
cv.circle(img,(447,63), 63, (0,0,255), -1)
font = cv.FONT_HERSHEY_SIMPLEX
cv.putText(img,'OpenCV',(10,500), font, 4,(255,255,255),2,cv.LINE_AA)
# 3 图像展示
plt.imshow(img[:,:,::-1])
plt.title('匹配结果'), plt.xticks([]), plt.yticks([])
plt.show()
我们可以通过行和列的坐标值获取该像素点的像素值。对于BGR图像,它返回一个蓝,绿,红值的数组。对于灰度图像,仅返回相应的强度值。使用相同的方法对像素值进行修改。
import numpy as np
import cv2 as cv
img = cv.imread('messi5.jpg')
# 获取某个像素点的值
px = img[100,100]
# 仅获取蓝色通道的强度值
blue = img[100,100,0]
# 修改某个位置的像素值
img[100,100] = [255,255,255]
import numpy as np
import cv2 as cv
import matplotlib.pyplot as plt
img = np.zeros((256,256,3),np.uint8)
plt.imshow(img[:,:,::-1])
# 获取(100,100)处的像素值
img[100,100]
## # 仅获取蓝色通道的强度值
img[100,100,0]
## 修改某一点的像素值
img[100,100] = (0,0,255)
图像属性包括行数,列数和通道数,图像数据类型,像素数等。
img.shape ## (256,256,3) 256*256 的三个通道的
img.dtype ## dtype('uint8')
img.size ## 196608
有时需要在B,G,R通道图像上单独工作。在这种情况下,需要将BGR图像分割为单个通道。或者在其他情况下,可能需要将这些单独的通道合并到BGR图像。你可以通过以下方式完成。
# 通道拆分
b,g,r = cv.split(img)
# 通道合并
img = cv.merge((b,g,r))
dili = cv.imread("./image/dili.jpg")
plt.imshow(dili[:,:,::-1])
b,g,r = cv.split(dili)
## b通道灰色显示
plt.imshow(b,cmap=plt.cm.gray)
# 通道合并
img2 = cv.merge((b,g,r))
plt.imshow(img2[:,:,::-1])
OpenCV中有150多种颜色空间转换方法。最广泛使用的转换方法有两种,BGR↔Gray和BGR↔HSV。
API:
cv.cvtColor(input_image,flag)
参数:
# 转换成灰度图片
gray = cv.cvtColor(dili,cv.COLOR_BGR2GRAY)
plt.imshow(gray,cmap=plt.cm.gray)
# 转换成hsv
hsv = cv.cvtColor(dili,cv.COLOR_BGR2HSV)
plt.imshow(hsv)
图像IO操作的API:
cv.imread(): ## 读取图像
cv.imshow():## 显示图像
cv.imwrite(): ## 保存图像
在图像上绘制几何图像
cv.line(): ## 绘制直线
cv.circle(): ## 绘制圆形
cv.rectangle(): ## 绘制矩形
cv.putText(): ## 在图像上添加文字
直接使用行列索引获取图像中的像素并进行修改
图像的属性
拆分通道:cv.split()
通道合并:cv.merge()
色彩空间的改变
cv.cvtColor(input_image,flag)
你可以使用OpenCV的cv.add()函数把两幅图像相加,或者可以简单地通过numpy操作添加两个图像,如res = img1 + img2。两个图像应该具有相同的大小和类型,或者第二个图像可以是标量值。
注意:OpenCV加法和Numpy加法之间存在差异。OpenCV的加法是饱和操作,而Numpy添加是模运算。
参考以下代码:
import numpy as np
>>> x = np.uint8([250])
>>> y = np.uint8([10])
>>> print( cv.add(x,y) ) # 250+10 = 260 => 255
[[255]]
>>> print( x+y ) # 250+10 = 260 % 256 = 4 取模
[4]
这种差别在你对两幅图像进行加法时会更加明显。OpenCV 的结果会更好一点。所以我们尽量使用 OpenCV 中的函数。
我们将下面两幅图像:
代码:
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 读取图像 img1 = cv.imread("view.jpg") img2 = cv.imread("rain.jpg") # 2 加法操作 img3 = cv.add(img1,img2) # cv中的加法 img4 = img1+img2 # 直接相加 # 3 图像显示 fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,8),dpi=100) axes[0].imshow(img3[:,:,::-1]) axes[0].set_title("cv中的加法") axes[1].imshow(img4[:,:,::-1]) axes[1].set_title("直接相加") plt.show()
结果如下所示:
这其实也是加法,但是不同的是两幅图像的权重不同,这就会给人一种混合或者透明的感觉。图像混合的计算公式如下:
g(x) = (1−α)f0(x) + αf1(x)
通过修改 α 的值(0 → 1),可以实现非常炫酷的混合。
现在我们把两幅图混合在一起。第一幅图的权重是0.7,第二幅图的权重是0.3。函数cv2.addWeighted()可以按下面的公式对图片进行混合操作。
dst = α⋅img1 + β⋅img2 + γ
这里γ取为零。
参考以下代码:
import numpy as np
import cv2 as cv
import matplotlib.pyplot as plt
# 1 读取图像
img1 = cv.imread("view.jpg")
img2 = cv.imread("rain.jpg")
# 2 图像混合
img3 = cv.addWeighted(img1,0.7,img2,0.3,0) # α⋅img1 + β⋅img2 + γ 对应五个参数
# 3 图像显示
plt.figure(figsize=(8,8))
plt.imshow(img3[:,:,::-1])
plt.show()
窗口将如下图显示:
图像加法:将两幅图像加载一起
cv.add()
图像的混合:将两幅图像按照不同的比例进行混合
cv.addweight()
注意:这里都要求两幅图像是相同大小的。
缩放是对图像的大小进行调整,即使图像放大或缩小。
1,API
cv2.resize(src,dsize,fx=0,fy=0,interpolation=cv2.INTER_LINEAR)
参数:
- src : ## 输入图像
- dsize: ## 绝对尺寸,直接指定调整后图像的大小
- fx,fy: ## 相对尺寸,将dsize设置为None,然后将fx和fy设置为比例因子即可
- interpolation:## 插值方法,
2,演示
import cv2 as cv # 1. 读取图片 img1 = cv.imread("./image/dog.jpeg") # 2.图像缩放 # 2.1 绝对尺寸 rows,cols = img1.shape[:2] res = cv.resize(img1,(2*cols,2*rows),interpolation=cv.INTER_CUBIC) # 2.2 相对尺寸 res1 = cv.resize(img1,None,fx=0.5,fy=0.5) # 3 图像显示 # 3.1 使用opencv显示图像(不推荐) cv.imshow("orignal",img1) cv.imshow("enlarge",res) cv.imshow("shrink)",res1) cv.waitKey(0) # 3.2 使用matplotlib显示图像 fig,axes=plt.subplots(nrows=1,ncols=3,figsize=(10,8),dpi=100) axes[0].imshow(res[:,:,::-1]) axes[0].set_title("绝对尺度(放大)") axes[1].imshow(img1[:,:,::-1]) axes[1].set_title("原图") axes[2].imshow(res1[:,:,::-1]) axes[2].set_title("相对尺度(缩小)") plt.show()
图像平移将图像按照指定方向和距离,移动到相应的位置。
API
cv.warpAffine(img,M,dsize)
参数:
需求是将图像的像素点移动(50,100)的距离:
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1. 读取图像 img1 = cv.imread("./image/image2.jpg") # 2. 图像平移 rows,cols = img1.shape[:2] M = np.float32([[1,0,100],[0,1,50]])# 平移矩阵 dst = cv.warpAffine(img1,M,(cols,rows)) # 3. 图像显示 fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,8),dpi=100) axes[0].imshow(img1[:,:,::-1]) axes[0].set_title("原图") axes[1].imshow(dst[:,:,::-1]) axes[1].set_title("平移后结果") plt.show()
图像旋转是指图像按照某个位置转动一定角度的过程,旋转中图像仍保持这原始尺寸。图像旋转后图像的水平对称轴、垂直对称轴及中心坐标原点都可能会发生变换,因此需要对图像旋转中的坐标进行相应转换。
那图像是怎么进行旋转的呢?如下图所示:
在OpenCV中图像旋转首先根据旋转角度和旋转中心获取旋转矩阵,然后根据旋转矩阵进行变换,即可实现任意角度和任意中心的旋转效果。
API
cv2.getRotationMatrix2D(center, angle, scale)
参数:
返回:
M:旋转矩阵
调用cv.warpAffine完成图像的旋转
示例
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 读取图像 img = cv.imread("./image/image2.jpg") # 2 图像旋转 rows,cols = img.shape[:2] # 2.1 生成旋转矩阵 M = cv.getRotationMatrix2D((cols/2,rows/2),90,1) # 2.2 进行旋转变换 dst = cv.warpAffine(img,M,(cols,rows)) # 3 图像展示 fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,8),dpi=100) axes[0].imshow(img1[:,:,::-1]) axes[0].set_title("原图") axes[1].imshow(dst[:,:,::-1]) axes[1].set_title("旋转后结果") plt.show()
图像的仿射变换涉及到图像的形状位置角度的变化,是深度学习预处理中常到的功能,仿射变换主要是对图像的缩放,旋转,翻转和平移等操作的组合。
那什么是图像的仿射变换,如下图所示,图1中的点1, 2 和 3 与图二中三个点一一映射, 仍然形成三角形, 但形状已经大大改变,通过这样两组三点(感兴趣点)求出仿射变换, 接下来我们就能把仿射变换应用到图像中所有的点中,就完成了图像的仿射变换。
需要注意的是,对于图像而言,宽度方向是x,高度方向是y,坐标的顺序和图像像素对应下标一致。所以原点的位置不是左下角而是右上角,y的方向也不是向上,而是向下。
在仿射变换中,原图中所有的平行线在结果图像中同样平行。为了创建这个矩阵我们需要从原图像中找到三个点以及他们在输出图像中的位置。然后cv2.getAffineTransform 会创建一个 2x3 的矩阵,最后这个矩阵会被传给函数 cv2.warpAffine。
示例
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 图像读取 img = cv.imread("./image/image2.jpg") # 2 仿射变换 rows,cols = img.shape[:2] # 2.1 创建变换矩阵 pts1 = np.float32([[50,50],[200,50],[50,200]]) pts2 = np.float32([[100,100],[200,50],[100,250]]) M = cv.getAffineTransform(pts1,pts2) # 2.2 完成仿射变换 dst = cv.warpAffine(img,M,(cols,rows)) # 3 图像显示 fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,8),dpi=100) axes[0].imshow(img[:,:,::-1]) axes[0].set_title("原图") axes[1].imshow(dst[:,:,::-1]) axes[1].set_title("仿射后结果") plt.show()
透射变换是视角变化的结果,是指利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度,破坏原有的投影光线束,仍能保持承影面上投影几何图形不变的变换。
示例
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 读取图像 img = cv.imread("./image/image2.jpg") # 2 透射变换 rows,cols = img.shape[:2] # 2.1 创建变换矩阵 pts1 = np.float32([[56,65],[368,52],[28,387],[389,390]]) pts2 = np.float32([[100,145],[300,100],[80,290],[310,300]]) T = cv.getPerspectiveTransform(pts1,pts2) # 2.2 进行变换 dst = cv.warpPerspective(img,T,(cols,rows)) # 3 图像显示 fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,8),dpi=100) axes[0].imshow(img[:,:,::-1]) axes[0].set_title("原图") axes[1].imshow(dst[:,:,::-1]) axes[1].set_title("透射后结果") plt.show()
图像金字塔是图像多尺度表达的一种,最主要用于图像的分割,是一种以多分辨率来解释图像的有效但概念简单的结构。
图像金字塔用于机器视觉和图像压缩,一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合。其通过梯次向下采样获得,直到达到某个终止条件才停止采样。
金字塔的底部是待处理图像的高分辨率表示,而顶部是低分辨率的近似,层级越高,图像越小,分辨率越低。
API
cv.pyrUp(img) #对图像进行上采样
cv.pyrDown(img) #对图像进行下采样
示例
import numpy as np
import cv2 as cv
import matplotlib.pyplot as plt
# 1 图像读取
img = cv.imread("./image/image2.jpg")
# 2 进行图像采样
up_img = cv.pyrUp(img) # 上采样操作
img_1 = cv.pyrDown(img) # 下采样操作
# 3 图像显示
cv.imshow('enlarge', up_img)
cv.imshow('original', img)
cv.imshow('shrink', img_1)
cv.waitKey(0)
cv.destroyAllWindows()
总结
图像缩放:对图像进行放大或缩小
cv.resize()
图像平移:
指定平移矩阵后,调用cv.warpAffine()平移图像
图像旋转:
调用cv.getRotationMatrix2D获取旋转矩阵,然后调用cv.warpAffine()进行旋转
仿射变换:
调用cv.getAffineTransform将创建变换矩阵,最后该矩阵将传递给cv.warpAffine()进行变换
透射变换:
通过函数cv.getPerspectiveTransform()找到变换矩阵,将cv.warpPerspective()进行投射变换
金字塔
图像金字塔是图像多尺度表达的一种,使用的API:
cv.pyrUp(): 向上采样
cv.pyrDown(): 向下采样1
连通性是描述区域和边界的重要概念,两个像素连通的两个必要条件是:
根据连通性的定义,有4联通、8联通和m联通三种。
腐蚀和膨胀是最基本的形态学操作,腐蚀和膨胀都是针对白色部分(高亮部分)而言的。
膨胀就是使图像中高亮部分扩张,效果图拥有比原图更大的高亮区域;腐蚀是原图中的高亮区域被蚕食,效果图拥有比原图更小的高亮区域。膨胀是求局部最大值的操作,腐蚀是求局部最小值的操作。
具体操作是:用一个结构元素扫描图像中的每一个像素,用结构元素中的每一个像素与其覆盖的像素做“与”操作,如果都为1,则该像素为1,否则为0。如下图所示,结构A被结构B腐蚀后:
腐蚀的作用是消除物体边界点,使目标缩小,可以消除小于结构元素的噪声点。
API:
cv.erode(img,kernel,iterations)
参数:
具体操作是:用一个结构元素扫描图像中的每一个像素,用结构元素中的每一个像素与其覆盖的像素做“与”操作,如果都为0,则该像素为0,否则为1。如下图所示,结构A被结构B腐蚀后:
API:
cv.dilate(img,kernel,iterations)
参数:
我们使用一个5*5的卷积核实现腐蚀和膨胀的运算:
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 读取图像 img = cv.imread("./image/image3.png") # 2 创建核结构 kernel = np.ones((5, 5), np.uint8) # 3 图像腐蚀和膨胀 erosion = cv.erode(img, kernel) # 腐蚀 dilate = cv.dilate(img,kernel) # 膨胀 # 4 图像展示 fig,axes=plt.subplots(nrows=1,ncols=3,figsize=(10,8),dpi=100) axes[0].imshow(img) axes[0].set_title("原图") axes[1].imshow(erosion) axes[1].set_title("腐蚀后结果") axes[2].imshow(dilate) axes[2].set_title("膨胀后结果") plt.show()
开运算和闭运算是将腐蚀和膨胀按照一定的次序进行处理。 但这两者并不是可逆的,即先开后闭并不能得到原来的图像。
开运算
开运算是先腐蚀后膨胀,其作用是:分离物体,消除小区域。特点:消除噪点,去除小的干扰块,而不影响原来的图像。
闭运算
闭运算与开运算相反,是先膨胀后腐蚀,作用是消除/“闭合”物体里面的孔洞,特点:可以填充闭合区域。
API
cv.morphologyEx(img, op, kernel)
参数:
示例
使用10*10的核结构对卷积进行开闭运算的实现。
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 读取图像 img1 = cv.imread("./image/image5.png") img2 = cv.imread("./image/image6.png") # 2 创建核结构 kernel = np.ones((10, 10), np.uint8) # 3 图像的开闭运算 cvOpen = cv.morphologyEx(img1,cv.MORPH_OPEN,kernel) # 开运算 cvClose = cv.morphologyEx(img2,cv.MORPH_CLOSE,kernel)# 闭运算 # 4 图像展示 fig,axes=plt.subplots(nrows=2,ncols=2,figsize=(10,8)) axes[0,0].imshow(img1) axes[0,0].set_title("原图") axes[0,1].imshow(cvOpen) axes[0,1].set_title("开运算结果") axes[1,0].imshow(img2) axes[1,0].set_title("原图") axes[1,1].imshow(cvClose) axes[1,1].set_title("闭运算结果") plt.show()
礼帽运算
原图像与“开运算“的结果图之差,如下式计算:
因为开运算带来的结果是放大了裂缝或者局部低亮度的区域,因此,从原图中减去开运算后的图,得到的效果图突出了比原图轮廓周围的区域更明亮的区域,且这一操作和选择的核的大小相关。
礼帽运算用来分离比邻近点亮一些的斑块。当一幅图像具有大幅的背景的时候,而微小物品比较有规律的情况下,可以使用顶帽运算进行背景提取。
黑帽运算
为”闭运算“的结果图与原图像之差。数学表达式为:
黑帽运算后的效果图突出了比原图轮廓周围的区域更暗的区域,且这一操作和选择的核的大小相关。
黑帽运算用来分离比邻近点暗一些的斑块。
API
cv.morphologyEx(img, op, kernel)
参数:
img: 要处理的图像
op: 处理方式:
Kernel: 核结构
示例
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 读取图像 img1 = cv.imread("./image/image5.png") img2 = cv.imread("./image/image6.png") # 2 创建核结构 kernel = np.ones((10, 10), np.uint8) # 3 图像的礼帽和黑帽运算 cvOpen = cv.morphologyEx(img1,cv.MORPH_TOPHAT,kernel) # 礼帽运算 cvClose = cv.morphologyEx(img2,cv.MORPH_BLACKHAT,kernel)# 黑帽运算 # 4 图像显示 fig,axes=plt.subplots(nrows=2,ncols=2,figsize=(10,8)) axes[0,0].imshow(img1) axes[0,0].set_title("原图") axes[0,1].imshow(cvOpen) axes[0,1].set_title("礼帽运算结果") axes[1,0].imshow(img2) axes[1,0].set_title("原图") axes[1,1].imshow(cvClose) axes[1,1].set_title("黑帽运算结果") plt.show()
椒盐噪声也称为脉冲噪声,是图像中经常见到的一种噪声,它是一种随机出现的白点或者黑点,可能是亮的区域有黑色像素或是在暗的区域有白色像素(或是两者皆有)。椒盐噪声的成因可能是影像讯号受到突如其来的强烈干扰而产生、类比数位转换器或位元传输错误等。例如失效的感应器导致像素值为最小值,饱和的感应器导致像素值为最大值。
高斯噪声是指噪声密度函数服从高斯分布的一类噪声。由于高斯噪声在空间和频域中数学上的易处理性,这种噪声(也称为正态噪声)模型经常被用于实践中
均值滤波的优点是算法简单,计算速度较快,缺点是在去噪的同时去除了很多细节部分,将图像变得模糊。
API:
cv.blur(src, ksize, anchor, borderType)
参数:
示例:
import cv2 as cv
import numpy as np
from matplotlib import pyplot as plt
# 1 图像读取
img = cv.imread('./image/dogsp.jpeg')
# 2 均值滤波
blur = cv.blur(img,(5,5))
# 3 图像显示
plt.figure(figsize=(10,8),dpi=100)
plt.subplot(121),plt.imshow(img[:,:,::-1]),plt.title('原图')
plt.xticks([]), plt.yticks([])
plt.subplot(122),plt.imshow(blur[:,:,::-1]),plt.title('均值滤波后结果')
plt.xticks([]), plt.yticks([])
plt.show()
API:
cv2.GaussianBlur(src,ksize,sigmaX,sigmay,borderType)
参数:
示例:
import cv2 as cv
import numpy as np
from matplotlib import pyplot as plt
# 1 图像读取
img = cv.imread('./image/dogGasuss.jpeg')
# 2 高斯滤波
blur = cv.GaussianBlur(img,(3,3),1)
# 3 图像显示
plt.figure(figsize=(10,8),dpi=100)
plt.subplot(121),plt.imshow(img[:,:,::-1]),plt.title('原图')
plt.xticks([]), plt.yticks([])
plt.subplot(122),plt.imshow(blur[:,:,::-1]),plt.title('高斯滤波后结果')
plt.xticks([]), plt.yticks([])
plt.show()
中值滤波是一种典型的非线性滤波技术,基本思想是用像素点邻域灰度值的中值来代替该像素点的灰度值。
中值滤波对椒盐噪声(salt-and-pepper noise)来说尤其有用,因为它不依赖于邻域内那些与典型值差别很大的值。
API:
cv.medianBlur(src, ksize )
参数:
示例:
import cv2 as cv
import numpy as np
from matplotlib import pyplot as plt
# 1 图像读取
img = cv.imread('./image/dogsp.jpeg')
# 2 中值滤波
blur = cv.medianBlur(img,5)
# 3 图像展示
plt.figure(figsize=(10,8),dpi=100)
plt.subplot(121),plt.imshow(img[:,:,::-1]),plt.title('原图')
plt.xticks([]), plt.yticks([])
plt.subplot(122),plt.imshow(blur[:,:,::-1]),plt.title('中值滤波后结果')
plt.xticks([]), plt.yticks([])
plt.show()
直方图是对数据进行统计的一种方法,并且将统计值组织到一系列实现定义好的 bin 当中。其中, bin 为直方图中经常用到的一个概念,可以译为 “直条” 或 “组距”,其数值是从数据中计算出的特征统计量,这些数据可以是诸如梯度、方向、色彩或任何其他特征。
图像直方图(Image Histogram)是用以表示数字图像中亮度分布的直方图,标绘了图像中每个亮度值的像素个数。这种直方图中,横坐标的左侧为较暗的区域,而右侧为较亮的区域。因此一张较暗图片的直方图中的数据多集中于左侧和中间部分,而整体明亮、只有少量阴影的图像则相反。
注意:直方图是根据灰度图进行绘制的,而不是彩色图像。 假设有一张图像的信息(灰度值 0 - 255,已知数字的范围包含 256 个值,于是可以按一定规律将这个范围分割成子区域(也就是 bins)。如:
直方图的一些术语和细节:
直方图的意义:
我们使用OpenCV中的方法统计直方图,并使用matplotlib将其绘制出来。
API:
cv2.calcHist(images,channels,mask,histSize,ranges[,hist[,accumulate]])
参数:
示例:
如下图,绘制相应的直方图
import numpy as np
import cv2 as cv
from matplotlib import pyplot as plt
# 1 直接以灰度图的方式读入
img = cv.imread('./image/cat.jpeg',0)
# 2 统计灰度图
histr = cv.calcHist([img],[0],None,[256],[0,256])
# 3 绘制灰度图
plt.figure(figsize=(10,6),dpi=100)
plt.plot(histr)
plt.grid()
plt.show()
掩膜是用选定的图像、图形或物体,对要处理的图像进行遮挡,来控制图像 处理的区域。
在数字图像处理中,我们通常使用二维矩阵数组进行掩膜。掩膜是由0和1组成一个二进制图像,利用该掩膜图像要处理的图像进行掩膜,其中1值的区域被处理,0 值区域被屏蔽,不会处理。
掩膜的主要用途是:
掩膜在遥感影像处理中使用较多,当提取道路或者河流,或者房屋时,通过一个掩膜矩阵来对图像进行像素过滤,然后将我们需要的地物或者标志突出显示出来。
我们使用cv.calcHist()来查找完整图像的直方图。 如果要查找图像某些区域的直方图,该怎么办? 只需在要查找直方图的区域上创建一个白色的掩膜图像,否则创建黑色, 然后将其作为掩码mask传递即可。
示例:
import numpy as np import cv2 as cv from matplotlib import pyplot as plt # 1. 直接以灰度图的方式读入 img = cv.imread('./image/cat.jpeg',0) # 2. 创建蒙版 mask = np.zeros(img.shape[:2], np.uint8) mask[400:650, 200:500] = 255 # 3.掩模 masked_img = cv.bitwise_and(img,img,mask = mask) # 4. 统计掩膜后图像的灰度图 mask_histr = cv.calcHist([img],[0],mask,[256],[1,256]) # 5. 图像展示 fig,axes=plt.subplots(nrows=2,ncols=2,figsize=(10,8)) axes[0,0].imshow(img,cmap=plt.cm.gray) axes[0,0].set_title("原图") axes[0,1].imshow(mask,cmap=plt.cm.gray) axes[0,1].set_title("蒙版数据") axes[1,0].imshow(masked_img,cmap=plt.cm.gray) axes[1,0].set_title("掩膜后数据") axes[1,1].plot(mask_histr) axes[1,1].grid() axes[1,1].set_title("灰度直方图") plt.show()
想象一下,如果一副图像中的大多数像素点的像素值都集中在某一个小的灰度值值范围之内会怎样呢?如果一幅图像整体很亮,那所有的像素值的取值个数应该都会很高。所以应该把它的直方图做一个横向拉伸(如下图),就可以扩大图像像素值的分布范围,提高图像的对比度,这就是直方图均衡化要做的事情。
“直方图均衡化”是把原始图像的灰度直方图从比较集中的某个灰度区间变成在更广泛灰度范围内的分布。直方图均衡化就是对图像进行非线性拉伸,重新分配图像像素值,使一定灰度范围内的像素数量大致相同。
这种方法提高图像整体的对比度,特别是有用数据的像素值分布比较接近时,在X光图像中使用广泛,可以提高骨架结构的显示,另外在曝光过度或不足的图像中可以更好的突出细节。
使用opencv进行直方图统计时,使用的是:
API:
dst = cv.equalizeHist(img)
参数:
返回:
示例:
import numpy as np
import cv2 as cv
from matplotlib import pyplot as plt
# 1. 直接以灰度图的方式读入
img = cv.imread('./image/cat.jpeg',0)
# 2. 均衡化处理
dst = cv.equalizeHist(img)
# 3. 结果展示
fig,axes=plt.subplots(nrows=2,ncols=2,figsize=(10,8),dpi=100)
axes[0].imshow(img,cmap=plt.cm.gray)
axes[0].set_title("原图")
axes[1].imshow(dst,cmap=plt.cm.gray)
axes[1].set_title("均衡化后结果")
plt.show()
上述的直方图均衡,我们考虑的是图像的全局对比度。 的确在进行完直方图均衡化之后,图片背景的对比度被改变了,在猫腿这里太暗,我们丢失了很多信息,所以在许多情况下,这样做的效果并不好。如下图所示,对比下两幅图像中雕像的画面,由于太亮我们丢失了很多信息
为了解决这个问题, 需要使用自适应的直方图均衡化。 此时, 整幅图像会被分成很多小块,这些小块被称为“tiles”(在 OpenCV 中 tiles 的 大小默认是 8x8),然后再对每一个小块分别进行直方图均衡化。 所以在每一个的区域中, 直方图会集中在某一个小的区域中)。如果有噪声的话,噪声会被放大。为了避免这种情况的出现要使用对比度限制。对于每个小块来说,如果直方图中的 bin 超过对比度的上限的话,就把 其中的像素点均匀分散到其他 bins 中,然后在进行直方图均衡化。
最后,为了 去除每一个小块之间的边界,再使用双线性差值,对每一小块进行拼接。
API:
cv.createCLAHE(clipLimit, tileGridSize)
参数:
示例:
import numpy as np
import cv2 as cv
# 1. 以灰度图形式读取图像
img = cv.imread('./image/cat.jpeg',0)
# 2. 创建一个自适应均衡化的对象,并应用于图像
clahe = cv.createCLAHE(clipLimit=2.0, tileGridSize=(8,8))
cl1 = clahe.apply(img)
# 3. 图像展示
fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,8),dpi=100)
axes[0].imshow(img,cmap=plt.cm.gray)
axes[0].set_title("原图")
axes[1].imshow(cl1,cmap=plt.cm.gray)
axes[1].set_title("自适应均衡化后的结果")
plt.show()
利用OpenCV进行sobel边缘检测的API是:
Sobel_x_or_y = cv2.Sobel(src, ddepth, dx, dy, dst, ksize, scale, delta, borderType)
参数:
src:传入的图像
ddepth: 图像的深度
dx和dy: 指求导的阶数,0表示这个方向上没有求导,取值为0、1。
ksize: 是Sobel算子的大小,即卷积核的大小,必须为奇数1、3、5、7,默认为3。
注意:如果ksize=-1,就演变成为3x3的Scharr算子。
scale:缩放导数的比例常数,默认情况为没有伸缩系数。
borderType:图像边界的模式,默认值为cv2.BORDER_DEFAULT。
Sobel函数求完导数后会有负值,还有会大于255的值。而原图像是uint8,即8位无符号数,所以Sobel建立的图像位数不够,会有截断。因此要使用16位有符号的数据类型,即cv2.CV_16S。处理完图像后,再使用cv2.convertScaleAbs()函数将其转回原来的uint8格式,否则图像无法显示。
Sobel算子是在两个方向计算的,最后还需要用cv2.addWeighted( )函数将其组合起来
Scale_abs = cv2.convertScaleAbs(x) # 格式转换函数
result = cv2.addWeighted(src1, alpha, src2, beta) # 图像混合
示例:
import cv2 as cv import numpy as np from matplotlib import pyplot as plt # 1 读取图像 img = cv.imread('./image/horse.jpg',0) # 2 计算Sobel卷积结果 x = cv.Sobel(img, cv.CV_16S, 1, 0) y = cv.Sobel(img, cv.CV_16S, 0, 1) # 3 将数据进行转换 Scale_absX = cv.convertScaleAbs(x) # convert 转换 scale 缩放 Scale_absY = cv.convertScaleAbs(y) # 4 结果合成 result = cv.addWeighted(Scale_absX, 0.5, Scale_absY, 0.5, 0) # 5 图像显示 plt.figure(figsize=(10,8),dpi=100) plt.subplot(121),plt.imshow(img,cmap=plt.cm.gray),plt.title('原图') plt.xticks([]), plt.yticks([]) plt.subplot(122),plt.imshow(result,cmap = plt.cm.gray),plt.title('Sobel滤波后结果') plt.xticks([]), plt.yticks([]) plt.show()
API:
laplacian = cv2.Laplacian(src, ddepth[, dst[, ksize[, scale[, delta[, borderType]]]]])
参数:
示例:
import cv2 as cv
import numpy as np
from matplotlib import pyplot as plt
# 1 读取图像
img = cv.imread('./image/horse.jpg',0)
# 2 laplacian转换
result = cv.Laplacian(img,cv.CV_16S)
Scale_abs = cv.convertScaleAbs(result)
# 3 图像展示
plt.figure(figsize=(10,8),dpi=100)
plt.subplot(121),plt.imshow(img,cmap=plt.cm.gray),plt.title('原图')
plt.xticks([]), plt.yticks([])
plt.subplot(122),plt.imshow(Scale_abs,cmap = plt.cm.gray),plt.title('Laplacian检测后结果')
plt.xticks([]), plt.yticks([])
plt.show()
在OpenCV中要实现Canny检测使用的API:
canny = cv2.Canny(image, threshold1, threshold2)
参数:
示例:
import cv2 as cv import numpy as np from matplotlib import pyplot as plt # 1 图像读取 img = cv.imread('./image/horse.jpg',0) # 2 Canny边缘检测 lowThreshold = 0 max_lowThreshold = 100 canny = cv.Canny(img, lowThreshold, max_lowThreshold) # 3 图像展示 plt.figure(figsize=(10,8),dpi=100) plt.subplot(121),plt.imshow(img,cmap=plt.cm.gray),plt.title('原图') plt.xticks([]), plt.yticks([]) plt.subplot(122),plt.imshow(canny,cmap = plt.cm.gray),plt.title('Canny检测后结果') plt.xticks([]), plt.yticks([]) plt.show()
所谓的模板匹配,就是在给定的图片中查找和模板最相似的区域,该算法的输入包括模板和图片,整个任务的思路就是按照滑窗的思路不断的移动模板图片,计算其与图像中对应区域的匹配度,最终将匹配度最高的区域选择为最终的结果。
实现流程:
准备两幅图像:
1.原图像(I):在这幅图中,找到与模板相匹配的区域
2.模板(T):与原图像进行比对的图像块
我们使用OpenCV中的方法实现模板匹配。
API:
res = cv.matchTemplate(img,template,method)
参数:
完成匹配后,使用cv.minMaxLoc()方法查找最大值所在的位置即可。如果使用平方差作为比较方法,则最小值位置是最佳匹配位置。
示例:
在该案例中,载入要搜索的图像和模板,图像如下所示:
通过matchTemplate实现模板匹配,使用minMaxLoc定位最匹配的区域,并用矩形标注最匹配的区域。
import cv2 as cv import numpy as np from matplotlib import pyplot as plt # 1 图像和模板读取 img = cv.imread('./image/wulin2.jpeg') template = cv.imread('./image/wulin.jpeg') h,w,l = template.shape # 2 模板匹配 # 2.1 模板匹配 res = cv.matchTemplate(img, template, cv.TM_CCORR) # 2.2 返回图像中最匹配的位置,确定左上角的坐标,并将匹配位置绘制在图像上 min_val, max_val, min_loc, max_loc = cv.minMaxLoc(res) # 使用平方差时最小值为最佳匹配位置 # top_left = min_loc top_left = max_loc bottom_right = (top_left[0] + w, top_left[1] + h) cv.rectangle(img, top_left, bottom_right, (0,255,0), 2) # 3 图像显示 plt.imshow(img[:,:,::-1]) plt.title('匹配结果'), plt.xticks([]), plt.yticks([]) plt.show()
拓展:模板匹配不适用于尺度变换,视角变换后的图像,这时我们就要使用关键点匹配算法,比较经典的关键点检测算法包括SIFT和SURF等,主要的思路是首先通过关键点检测算法获取模板和测试图片中的关键点;然后使用关键点匹配算法处理即可,这些关键点可以很好的处理尺度变化、视角变换、旋转变化、光照变化等,具有很好的不变性。
霍夫变换常用来提取图像中的直线和圆等几何形状,如下图所示:
在OpenCV中做霍夫线检测是使用的API是:
cv.HoughLines(img, rho, theta, threshold)
参数:
img: 检测的图像,要求是二值化的图像,所以在调用霍夫变换之前首先要进行二值化,或者进行Canny边缘检测
rho、theta: �ρ 和�θ的精确度
threshold: 阈值,只有累加器中的值高于该阈值时才被认为是直线。
霍夫线检测的整个流程如下图所示,这是在stackflow上一个关于霍夫线变换的解释:
示例:
检测下述图像中的直线:
import numpy as np import random import cv2 as cv import matplotlib.pyplot as plt # 1.加载图片,转为二值图 img = cv.imread('./image/rili.jpg') gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY) edges = cv.Canny(gray, 50, 150) # 2.霍夫直线变换 lines = cv.HoughLines(edges, 0.8, np.pi / 180, 150) # 3.将检测的线绘制在图像上(注意是极坐标噢) for line in lines: rho, theta = line[0] a = np.cos(theta) b = np.sin(theta) x0 = a * rho y0 = b * rho x1 = int(x0 + 1000 * (-b)) y1 = int(y0 + 1000 * (a)) x2 = int(x0 - 1000 * (-b)) y2 = int(y0 - 1000 * (a)) cv.line(img, (x1, y1), (x2, y2), (0, 255, 0)) # 4. 图像显示 plt.figure(figsize=(10,8),dpi=100) plt.imshow(img[:,:,::-1]),plt.title('霍夫变换线检测') plt.xticks([]), plt.yticks([]) plt.show()
原理
圆的表示式是:(�−�)2+(�−�)2=�(x−a)2+(y−b)2=r其中�a和�b表示圆心坐标,�r表示圆半径,因此标准的霍夫圆检测就是在这三个参数组成的三维空间累加器上进行圆形检测,此时效率就会很低,所以OpenCV中使用霍夫梯度法进行圆形的检测。
霍夫梯度法将霍夫圆检测范围两个阶段,第一阶段检测圆心,第二阶段利用圆心推导出圆半径。
原则上霍夫变换可以检测任何形状,但复杂的形状需要的参数就多,霍夫空间的维数就多,因此在程序实现上所需的内存空间以及运行效率上都不利于把标准霍夫变换应用于实际复杂图形的检测中。霍夫梯度法是霍夫变换的改进,它的目的是减小霍夫空间的维度,提高效率。
API
在OpenCV中检测图像中的圆环使用的是API是:
circles = cv.HoughCircles(image, method, dp, minDist, param1=100, param2=100, minRadius=0,maxRadius=0 )
参数:
返回:
实现
由于霍夫圆检测对噪声比较敏感,所以首先对图像进行中值滤波。
import cv2 as cv import numpy as np import matplotlib.pyplot as plt # 1 读取图像,并转换为灰度图 planets = cv.imread("./image/star.jpeg") gay_img = cv.cvtColor(planets, cv.COLOR_BGRA2GRAY) # 2 进行中值模糊,去噪点 img = cv.medianBlur(gay_img, 7) # 3 霍夫圆检测 circles = cv.HoughCircles(img, cv.HOUGH_GRADIENT, 1, 200, param1=100, param2=30, minRadius=0, maxRadius=100) # 4 将检测结果绘制在图像上 for i in circles[0, :]: # 遍历矩阵每一行的数据 # 绘制圆形 cv.circle(planets, (i[0], i[1]), i[2], (0, 255, 0), 2) # 绘制圆心 cv.circle(planets, (i[0], i[1]), 2, (0, 0, 255), 3) # 5 图像显示 plt.figure(figsize=(10,8),dpi=100) plt.imshow(planets[:,:,::-1]),plt.title('霍夫变换圆检测') plt.xticks([]), plt.yticks([]) plt.show()
在OpenCV中实现Hariis检测使用的API是:
dst=cv.cornerHarris(src, blockSize, ksize, k)
参数:
示例:
import cv2 as cv import numpy as np import matplotlib.pyplot as plt # 1 读取图像,并转换成灰度图像 img = cv.imread('./image/chessboard.jpg') gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY) # 2 角点检测 # 2.1 输入图像必须是 float32 gray = np.float32(gray) # 2.2 最后一个参数在 0.04 到 0.05 之间 dst = cv.cornerHarris(gray,2,3,0.04) # 3 设置阈值,将角点绘制出来,阈值根据图像进行选择 img[dst>0.001*dst.max()] = [0,0,255] # 4 图像显示 plt.figure(figsize=(10,8),dpi=100) plt.imshow(img[:,:,::-1]),plt.title('Harris角点检测') plt.xticks([]), plt.yticks([]) plt.show()
Harris角点检测的优缺点:
优点:
缺点:
在OpenCV中实现Shi-Tomasi角点检测使用API:
corners = cv2.goodFeaturesToTrack ( image, maxcorners, qualityLevel, minDistance )
参数:
返回:
示例:
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 读取图像 img = cv.imread('./img/tv.jpg') gray = cv.cvtColor(img,cv.COLOR_BGR2GRAY) # 2 角点检测 corners = cv.goodFeaturesToTrack(gray,1000,0.01,10) # 3 绘制角点 for i in corners: x,y = i.ravel() cv.circle(img,(int(x),int(y)),2,(0,0,255),-1) # 4 图像展示 plt.figure(figsize=(10,8),dpi=100) plt.imshow(img[:,:,::-1]),plt.title('shi-tomasi角点检测') plt.xticks([]), plt.yticks([]) plt.show()
结果如下:
总结
Harris算法
思想:通过图像的局部的小窗口观察图像,角点的特征是窗口沿任意方向移动都会导致图像灰度的明显变化。
API: cv.cornerHarris()
Shi-Tomasi算法
对Harris算法的改进,能够更好地检测角点
API: cv2.goodFeatureToTrack()
在OpenCV中利用SIFT检测关键点的流程如下所示:
sift = cv.xfeatures2d.SIFT_create()
kp,des = sift.detectAndCompute(gray,None)
参数:
返回:
cv.drawKeypoints(image, keypoints, outputimage, color, flags)
参数:
SURF算法的应用与上述流程是一致,这里就不在赘述。
示例:
利用SIFT算法在中央电视台的图片上检测关键点,并将其绘制出来:
import cv2 as cv import numpy as np import matplotlib.pyplot as plt # 1 读取图像 img = cv.imread('./image/tv.jpg') gray= cv.cvtColor(img,cv.COLOR_BGR2GRAY) # 2 sift关键点检测 # 2.1 实例化sift对象 sift = cv.xfeatures2d.SIFT_create() # 2.2 关键点检测:kp关键点信息包括方向,尺度,位置信息,des是关键点的描述符 kp,des=sift.detectAndCompute(gray,None) # 2.3 在图像上绘制关键点的检测结果 cv.drawKeypoints(img,kp,img,flags=cv.DRAW_MATCHES_FLAGS_DRAW_RICH_KEYPOINTS) # 3 图像显示 plt.figure(figsize=(8,6),dpi=100) plt.imshow(img[:,:,::-1]),plt.title('sift检测') plt.xticks([]), plt.yticks([]) plt.show()
我们前面已经介绍过几个特征检测器,它们的效果都很好,特别是SIFT和SURF算法,但是从实时处理的角度来看,效率还是太低了。为了解决这个问题,Edward Rosten和Tom Drummond在2006年提出了FAST算法,并在2010年对其进行了修正。
FAST (全称Features from accelerated segment test)是一种用于角点检测的算法,该算法的原理是取图像中检测点,以该点为圆心的周围邻域内像素点判断检测点是否为角点,通俗的讲就是若一个像素周围有一定数量的像素与该点像素值不同,则认为其为角点。
在图像中选取一个像素点 p,来判断它是不是关键点。 I p I_p Ip等于像素点 p的灰度值。
以r为半径画圆,覆盖p点周围的M个像素,通常情狂下,设置 r=3,则 M=16,如下图所示:
设置一个阈值t,如果在这 16 个像素点中存在 n 个连续像素点的灰度值都高于 I p + t I_p + t Ip+t,或者低于 I p − t I_p - t Ip−t,那么像素点 p 就被认为是一个角点。如上图中的虚线所示,n 一般取值为 12。
由于在检测特征点时是需要对图像中所有的像素点进行检测,然而图像中的绝大多数点都不是特征点,如果对每个像素点都进行上述的检测过程,那显然会浪费许多时间,因此采用一种进行非特征点判别的方法:首先对候选点的周围每个 90 度的点:1,9,5,13 进行测试(先测试 1 和 19, 如果它们符合阈值要求再测试 5 和 13)。如果 p 是角点,那么这四个点中至少有 3 个要符合阈值要求,否则直接剔除。对保留下来的点再继续进行测试(是否有 12 的点符合阈值要求)。
虽然这个检测器的效率很高,但它有以下几条缺点:
前 3 个问题可以通过机器学习的方法解决,最后一个问题可以使用非最大值抑制的方法解决。
选择一组训练图片(最好是跟最后应用相关的图片)
使用 FAST 算法找出每幅图像的特征点,对图像中的每一个特征点,将其周围的 16 个像素存储构成一个向量P。
每一个特征点的 16 像素点都属于下列三类中的一种
根据这些像素点的分类,特征向量 P 也被分为 3 个子集:Pd ,Ps ,Pb,
定义一个新的布尔变量 K p K_p Kp,如果 p 是角点就设置为 Ture,如果不是就设置为 False。
利用特征值向量p,目标值是 K p K_p Kp,训练ID3 树(决策树分类器)。
将构建好的决策树运用于其他图像的快速的检测。
在筛选出来的候选角点中有很多是紧挨在一起的,需要通过非极大值抑制来消除这种影响。
为所有的候选角点都确定一个打分函数
V
V
V ,
V
V
V的值可这样计算:先分别计算
I
p
I_p
Ip与圆上16个点的像素值差值,取绝对值,再将这16个绝对值相加,就得到了
V
V
V的值
V
=
∑
i
16
∣
I
p
−
I
i
∣
V = \sum_{i}^{16}|I_p-I_i|
V=i∑16∣Ip−Ii∣
最后比较毗邻候选角点的 V 值,把V值较小的候选角点pass掉。
FAST算法的思想与我们对角点的直观认识非常接近,化繁为简。FAST算法比其它角点的检测算法快,但是在噪声较高时不够稳定,这需要设置合适的阈值。
OpenCV中的FAST检测算法是用传统方法实现的,
1.实例化fast
fast = =cv.FastFeatureDetector_create( threshold, nonmaxSuppression)
参数:
返回:
2.利用fast.detect检测关键点,没有对应的关键点描述
kp = fast.detect(grayImg, None)
参数:
返回:
3.将关键点检测结果绘制在图像上,与在sift中是一样的
cv.drawKeypoints(image, keypoints, outputimage, color, flags)
示例:
import numpy as np import cv2 as cv from matplotlib import pyplot as plt # 1 读取图像 img = cv.imread('./image/tv.jpg') # 2 Fast角点检测 # 2.1 创建一个Fast对象,传入阈值,注意:可以处理彩色空间图像 fast = cv.FastFeatureDetector_create(threshold=30) # 2.2 检测图像上的关键点 kp = fast.detect(img,None) # 2.3 在图像上绘制关键点 img2 = cv.drawKeypoints(img, kp, None, color=(0,0,255)) # 2.4 输出默认参数 print( "Threshold: {}".format(fast.getThreshold()) ) print( "nonmaxSuppression:{}".format(fast.getNonmaxSuppression()) ) print( "neighborhood: {}".format(fast.getType()) ) print( "Total Keypoints with nonmaxSuppression: {}".format(len(kp)) ) # 2.5 关闭非极大值抑制 fast.setNonmaxSuppression(0) kp = fast.detect(img,None) print( "Total Keypoints without nonmaxSuppression: {}".format(len(kp)) ) # 2.6 绘制为进行非极大值抑制的结果 img3 = cv.drawKeypoints(img, kp, None, color=(0,0,255)) # 3 绘制图像 fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,8),dpi=100) axes[0].imshow(img2[:,:,::-1]) axes[0].set_title("加入非极大值抑制") axes[1].imshow(img3[:,:,::-1]) axes[1].set_title("未加入非极大值抑制") plt.show()
结果:
SIFT和SURF算法是受专利保护的,在使用他们时我们是要付费的,但是ORB(Oriented Fast and Rotated Brief)不需要,它可以用来对图像中的关键点快速创建特征向量,并用这些特征向量来识别图像中的对象。
ORB算法结合了Fast和Brief算法,提出了构造金字塔,为Fast特征点添加了方向,从而使得关键点具有了尺度不变性和旋转不变性。具体流程描述如下:
σ s = σ 0 s \sigma_s=\sigma_0^s σs=σ0s
σ 0 \sigma_0 σ0是初始尺度,默认为1.2,原图在第0层。
第s层图像的大小:
S
I
Z
E
=
(
H
∗
1
σ
s
)
×
(
W
∗
1
σ
s
)
SIZE = (H*\frac{1}{\sigma_s})\times(W*\frac{1}{\sigma_s})
SIZE=(H∗σs1)×(W∗σs1)
在不同的尺度上利用Fast算法检测特征点,采用Harris角点响应函数,根据角点的响应值排序,选取前N个特征点,作为本尺度的特征点。
计算特征点的主方向,计算以特征点为圆心半径为r的圆形邻域内的灰度质心位置,将从特征点位置到质心位置的方向做特征点的主方向。
计算方法如下:
m
p
q
=
∑
x
,
y
x
p
y
q
I
(
x
,
y
)
m_{pq}=\sum_{x,y}x^py^qI(x,y)
mpq=x,y∑xpyqI(x,y)
质心位置:
C
=
(
m
10
m
00
,
m
01
m
10
)
C=(\frac{m_{10}}{m_{00}},\frac{m_{01}}{m_{10}})
C=(m00m10,m10m01)
主方向:
θ
=
a
r
c
t
a
n
(
m
01
,
m
10
)
\theta = arctan(m_{01},m_{10})
θ=arctan(m01,m10)
BRIEF是一种特征描述子提取算法,并非特征点的提取算法,一种生成二值化描述子的算法,不提取代价低,匹配只需要使用简单的汉明距离(Hamming Distance)利用比特之间的异或操作就可以完成。因此,时间代价低,空间代价低,效果还挺好是最大的优点。
算法的步骤介绍如下:
图像滤波:原始图像中存在噪声时,会对结果产生影响,所以需要对图像进行滤波,去除部分噪声。
选取点对:以特征点为中心,取S*S的邻域窗口,在窗口内随机选取N组点对,一般N=128,256,512,默认是256,关于如何选取随机点对,提供了五种形式,结果如下图所示:
x,y方向平均分布采样
x,y均服从Gauss(0,S^2/25)各向同性采样
x服从Gauss(0,S2/25),y服从Gauss(0,S2/100)采样
x,y从网格中随机获取
x一直在(0,0),y从网格中随机选取
图中一条线段的两个端点就是一组点对,其中第二种方法的结果比较好。
构建描述符:假设x,y是某个点对的两个端点,p(x),p(y)是两点对应的像素值,则有:
t
(
x
,
y
)
=
{
1
i
f
p
(
x
)
>
p
(
y
)
0
e
l
s
e
t(x,y)=
对每一个点对都进行上述的二进制赋值,形成BRIEF的关键点的描述特征向量,该向量一般为 128-512 位的字符串,其中仅包含 1 和 0,如下图所示:
在OPenCV中实现ORB算法,使用的是:
1.实例化ORB
orb = cv.xfeatures2d.orb_create(nfeatures)
参数:
2.利用orb.detectAndCompute()检测关键点并计算
kp,des = orb.detectAndCompute(gray,None)
参数:
返回:
3.将关键点检测结果绘制在图像上
cv.drawKeypoints(image, keypoints, outputimage, color, flags)
示例:
import numpy as np import cv2 as cv from matplotlib import pyplot as plt # 1 图像读取 img = cv.imread('./image/tv.jpg') # 2 ORB角点检测 # 2.1 实例化ORB对象 orb = cv.ORB_create(nfeatures=500) # 2.2 检测关键点,并计算特征描述符 kp,des = orb.detectAndCompute(img,None) print(des.shape) # 3 将关键点绘制在图像上 img2 = cv.drawKeypoints(img, kp, None, color=(0,0,255), flags=0) # 4. 绘制图像 plt.figure(figsize=(10,8),dpi=100) plt.imshow(img2[:,:,::-1]) plt.xticks([]), plt.yticks([]) plt.show()
在OpenCV中我们要获取一个视频,需要创建一个VideoCapture对象,指定你要读取的视频文件:
1-1 创建读取视频的对象
cap = cv.VideoCapture(filepath)
参数:
视频的属性信息
2.1. 获取视频的某些属性,
retval = cap.get(propId)
参数:
propId: 从0到18的数字,每个数字表示视频的属性
常用属性有:
2.2 修改视频的属性信息
cap.set(propId,value)
参数:
判断图像是否读取成功
isornot = cap.isOpened()
获取视频的一帧图像
ret, frame = cap.read()
参数:
调用cv.imshow()显示图像,在显示图像时使用cv.waitkey()设置适当的持续时间,如果太低视频会播放的非常快,如果太高就会播放的非常慢,通常情况下我们设置25ms就可以了。
最后,调用cap.realease()将视频释放掉
示例:
import numpy as np import cv2 as cv # 1.获取视频对象 cap = cv.VideoCapture('DOG.wmv') # 2.判断是否读取成功 while(cap.isOpened()): # 3.获取每一帧图像 ret, frame = cap.read() # 4. 获取成功显示图像 if ret == True: cv.imshow('frame',frame) # 5.每一帧间隔为25ms if cv.waitKey(25) & 0xFF == ord('q'): break # 6.释放视频对象 cap.release() cv.destoryAllwindows()
在OpenCV中我们保存视频使用的是VedioWriter对象,在其中指定输出文件的名称,如下所示:
out = cv2.VideoWriter(filename,fourcc, fps, frameSize)
参数:
filename:视频保存的位置
fourcc:指定视频编解码器的4字节代码
fps:帧率
frameSize:帧大小
设置视频的编解码器,如下所示,
retval = cv2.VideoWriter_fourcc( c1, c2, c3, c4 )
参数:
c1,c2,c3,c4: 是视频编解码器的4字节代码,在fourcc.org中找到可用代码列表,与平台紧密相关,常用的有:
利用cap.read()获取视频中的每一帧图像,并使用out.write()将某一帧图像写入视频中。
使用cap.release()和out.release()释放资源。
示例:
import cv2 as cv import numpy as np # 1. 读取视频 cap = cv.VideoCapture("DOG.wmv") # 2. 获取图像的属性(宽和高,),并将其转换为整数 frame_width = int(cap.get(3)) frame_height = int(cap.get(4)) # 3. 创建保存视频的对象,设置编码格式,帧率,图像的宽高等 out = cv.VideoWriter('outpy.avi',cv.VideoWriter_fourcc('M','J','P','G'), 10, (frame_width,frame_height)) while(True): # 4.获取视频中的每一帧图像 ret, frame = cap.read() if ret == True: # 5.将每一帧图像写入到输出文件中 out.write(frame) else: break # 6.释放资源 cap.release() out.release() cv.destroyAllWindows()
总结
import numpy as np import cv2 as cv # 1 获取视频 cap = cv.VideoCapture('image/DOG.wmv') # 2 指定追踪目标 ret,frame = cap.read() r,h,c,w=197,141,0,208 win = (c,r,w,h) roi = frame[r:r+h,c:c+w] # 3 计算直方图 hsv_roi = cv.cvtColor(roi,cv.COLOR_BGR2HSV) roi_hist = cv.calcHist([hsv_roi],[0],None,[180],[0,180]) cv.normalize(roi_hist,roi_hist,0,255,cv.NORM_MINMAX) # 4 目标追踪 term = (cv.TERM_CRITERIA_EPS|cv.TERM_CRITERIA_COUNT,10,1) while(True): ret,frame = cap.read() if ret ==True: hst = cv.cvtColor(frame,cv.COLOR_BGR2HSV) dst = cv.calcBackProject([hst],[0],roi_hist,[0,180],1) ret,win = cv.meanShift(dst,win,term) x,y,w,h = win img2 = cv.rectangle(frame,(x,y),(x+w,y+h),255,2) cv.imshow("frame",img2) if cv.waitKey(60)&0xFF ==ord('q'): break # 5 释放资源 cap.release() cv.destroyAllWindows()
我们使用机器学习的方法完成人脸检测,首先需要大量的正样本图像(面部图像)和负样本图像(不含面部的图像)来训练分类器。我们需要从其中提取特征。下图中的 Haar 特征会被使用,就像我们的卷积核,每一个特征是一 个值,这个值等于黑色矩形中的像素值之后减去白色矩形中的像素值之和。
Haar特征值反映了图像的灰度变化情况。例如:脸部的一些特征能由矩形特征简单的描述,眼睛要比脸颊颜色要深,鼻梁两侧比鼻梁颜色要深,嘴巴比周围颜色要深等。
Haar特征可用于于图像任意位置,大小也可以任意改变,所以矩形特征值是矩形模版类别、矩形位置和矩形大小这三个因素的函数。故类别、大小和位置的变化,使得很小的检测窗口含有非常多的矩形特征。
得到图像的特征后,训练一个决策树构建的adaboost级联决策器来识别是否为人脸。
OpenCV中自带已训练好的检测器,包括面部,眼睛,猫脸等,都保存在XML文件中,我们可以通过以下程序找到他们:
import cv2 as cv
print(cv.__file__)
找到的文件如下所示:
那我们就利用这些文件来识别人脸,眼睛等。检测流程如下:
读取图片,并转换成灰度图
实例化人脸和眼睛检测的分类器对象
# 实例化级联分类器
classifier =cv.CascadeClassifier( "haarcascade_frontalface_default.xml" )
# 加载分类器
classifier.load('haarcascade_frontalface_default.xml')
进行人脸和眼睛的检测
rect = classifier.detectMultiScale(gray, scaleFactor, minNeighbors, minSize,maxsize)
参数:
将检测结果绘制出来就可以了。
主程序如下所示:
import cv2 as cv import matplotlib.pyplot as plt # 1.以灰度图的形式读取图片 img = cv.imread("16.jpg") gray = cv.cvtColor(img,cv.COLOR_BGR2GRAY) # 2.实例化OpenCV人脸和眼睛识别的分类器 face_cas = cv.CascadeClassifier( "haarcascade_frontalface_default.xml" ) face_cas.load('haarcascade_frontalface_default.xml') eyes_cas = cv.CascadeClassifier("haarcascade_eye.xml") eyes_cas.load("haarcascade_eye.xml") # 3.调用识别人脸 faceRects = face_cas.detectMultiScale( gray, scaleFactor=1.2, minNeighbors=3, minSize=(32, 32)) for faceRect in faceRects: x, y, w, h = faceRect # 框出人脸 cv.rectangle(img, (x, y), (x + h, y + w),(0,255,0), 3) # 4.在识别出的人脸中进行眼睛的检测 roi_color = img[y:y+h, x:x+w] roi_gray = gray[y:y+h, x:x+w] eyes = eyes_cas.detectMultiScale(roi_gray) for (ex,ey,ew,eh) in eyes: cv.rectangle(roi_color,(ex,ey),(ex+ew,ey+eh),(0,255,0),2) # 5. 检测结果的绘制 plt.figure(figsize=(8,6),dpi=100) plt.imshow(img[:,:,::-1]),plt.title('检测结果') plt.xticks([]), plt.yticks([]) plt.show()
结果:
import cv2 as cv import matplotlib.pyplot as plt img = cv.imread('./img/yangzi.jpg') gray = cv.cvtColor(img,cv.COLOR_BGR2GRAY) # 实例化检测器 face_cas = cv.CascadeClassifier( "D:\\Users\\anaconda3\\Lib\\site-packages\\cv2\\data\\haarcascade_frontalface_default.xml" ) face_cas.load('D:\\Users\\anaconda3\\Lib\\site-packages\\cv2\\data\\haarcascade_frontalface_default.xml') eyes_cas = cv.CascadeClassifier("D:\\Users\\anaconda3\\Lib\\site-packages\cv2\\data\\haarcascade_eye.xml") eyes_cas.load("D:\\Users\\anaconda3\\Lib\\site-packages\cv2\\data\\haarcascade_eye.xml") # 人脸检测 face_rects = face_cas.detectMultiScale(gray,scaleFactor =1.2,minNeighbors = 3,minSize=(32,32)) # 绘制人脸检测眼睛 for facerect in face_rects: x,y,w,h = facerect cv.rectangle(img,(x,y),(x+w,y+h),(0,255,0),3) roi_color = img[y:y+h,x:x+w] roi_gray = gray[y:y+h,x:x+w] eyes = eyes_cas.detectMultiScale(roi_gray) for (ex,ey,ew,eh) in eyes: cv.rectangle(roi_color,(ex,ey),(ex+ew,ey+eh),(0,255,0),3) plt.figure(figsize=(8,6),dpi=100) plt.imshow(img[:,:,::-1]),plt.title('检测结果') plt.xticks([]), plt.yticks([]) plt.imshow(img[:,:,::-1])
我们也可在视频中对人脸进行检测:
import cv2 as cv import matplotlib.pyplot as plt # 1.读取视频 cap = cv.VideoCapture("movie.mp4") # 2.在每一帧数据中进行人脸识别 while(cap.isOpened()): ret, frame = cap.read() if ret==True: gray = cv.cvtColor(frame, cv.COLOR_BGR2GRAY) # 3.实例化OpenCV人脸识别的分类器 face_cas = cv.CascadeClassifier( "haarcascade_frontalface_default.xml" ) face_cas.load('haarcascade_frontalface_default.xml') # 4.调用识别人脸 faceRects = face_cas.detectMultiScale(gray, scaleFactor=1.2, minNeighbors=3, minSize=(32, 32)) for faceRect in faceRects: x, y, w, h = faceRect # 框出人脸 cv.rectangle(frame, (x, y), (x + h, y + w),(0,255,0), 3) cv.imshow("frame",frame) if cv.waitKey(1) & 0xFF == ord('q'): break # 5. 释放资源 cap.release() cv.destroyAllWindows()
总结
opencv中人脸识别的流程是:
# 实例化级联分类器
classifier =cv.CascadeClassifier( "haarcascade_frontalface_default.xml" )
# 加载分类器
classifier.load('haarcascade_frontalface_default.xml')
rect = classifier.detectMultiScale(gray, scaleFactor, minNeighbors, minSize,maxsize)
我们也可以在视频中进行人脸识别
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。