当前位置:   article > 正文

Python计算机视觉——图像检索与识别_图像检索的数学公式实现

图像检索的数学公式实现

目录

一、原理解析

1.1计算机视觉的图像分类是什么意思?

1.2图像分类如何实现?

1.3Bag of features算法和过程

1)提取图像特征

2)训练字典

3)图像直方图生成

4)训练分类器

1.4TF-IDF

二、实验过程

2.1代码分析

2.2实验过程

2.3实验结果

一、原理解析

1.1计算机视觉的图像分类是什么意思?


图像分类,即通过图像内容的不同将图像划分为不同的类别,
该技术二十世纪九十年代末提出,并命名为基于图像内容的图像分类(Content- Based ImageClassific- ation, CEIC)算法概念,
基于内容的图像分类技术不需要对图像的语义信息进行人工标注,
而是通过计算机提取图像中所包含的特征,并对特征进行处理和分析,得出分类结果。
 
常用的图像特征有 图像颜色、纹理、灰度等信息。而图像分类过程中,
提取的特征要求不容易受随机因素干扰,特征的有效提取可提高图像分类的精度。
特征提取完成后,选择合适的算法创建图像类型与视觉特征之间的关联度,对图像进行类别划分。
 
图像分类领域中,根据图像分类要求,一般可以分为 场景分类和 目标分类两类问题。
场景分类也可以称为事件分类,场景分类是对 整幅图像所代表的 整体信息进行分类,或者是对图像中 所发生事件的总体描述。
目标分类(又称为物体分类)是对图像中 出现的目标 (物体)进行识别或分类。
 

1.2图像分类如何实现?

视觉词袋模型( Bag-of-features )是当前计算机视觉领域中较为常用的图像表示方法。
视觉词袋模型来源于词袋模型(Bag-of-words),词袋模型最初被用在文本分类中,将文档表示成特征矢量。它的基本思想是假定 对于一个文本,忽略其词序和语法、句法, 仅仅将其看做是一些词汇的集合, 而文本中的每个词汇都是独立的。简单说就是讲每篇文档都看成一个袋子 (因为里面装的都是词汇,
所以称为词袋,Bag of words即因此而来)然后看这个袋子里装的都是些什么词汇,将其分类。
如果文档中猪、 马、牛、羊、山谷、土地、拖拉机这样的词汇多些,而银行、大厦、汽车、公园这样的词汇少些, 我们就倾向于判断它是一 篇描绘乡村的文档,而不是描述城镇的。
Bag of Feature也是借鉴了这种思路,只不过在图像中,我们抽出的不再是一个个word, 而是 图像的关键特征Feature,所以研究人员将它更名为Bag of Feature.Bag of Feature在检索中的算法流程和分类几乎完全一样,唯一的区别在于,对于原始的BOF特征,也就是直方图向量,我们引入TF_IDF权值。

图像分类问题是计算机视觉领域的基础问题,它的目的是根据图像的语义信息将不同类别图像区分开来,实现最小的分类误差。具体任务要求是从给定的分类集合中给图像分配一个标签的任务。总体来说,对于单标签的图像分类问题,它可以分为跨物种语义级别的图像分类,子类细粒度图像分类,以及实例级图像分类三大类别。因为VOC数据集是不同物种类别的数据集,所以本文主要研究讨论跨物种语义级别的图像分类任务。
通常图像分类任务存在以下技术难点:
(1)视角变化:同一个物体,摄像机可以从多个角度来展现。
(2)大小变化:物体可视的大小通常是会变化的。
(3)形变:很多东西的形状并非一成不变,会有很大变化。

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号