赞
踩
1、 请简述一下 Bag of Visual Word 的计算过程,并设计一个基于 Bag of Visual Word 的图像分类系统;
(1)特征的提取和描述:使用SIFT算子提取图像的兴趣点与特征描述,为训练集中的每幅图像生成若干个关键点及其描述符。
(2)视觉词典的构建:将提取到的所有SIFT特征进行聚类(假设K个簇),每个聚类中心就是一个视觉单词,从而得到视觉词典。
(3)图像的表示:将图像提取SIFT特征,量化为视觉单词的向量化表示,统计每个单词出现的次数,从而将每个图像表示为一个K维的向量。
对于图像分类任务:首先使用视觉词袋提取特征,之后选取合适的分类器进行分类和识别,比如,可以选择KNN算法或SVM进行分类。
2、 请简述一下帧差法检测运动目标的不足之处,并讨论可能的改进方法;背景建模的主要思想和基本方法。
帧差法不足之处:受噪声影响较大。对于动态场景,由于场景与摄像头之间存在复杂的相对运动,传统的帧差方法已经不再适用,如何能对全局的运动进行估计和补偿,成为问题的关键。
帧差法改进方法:背景建模就是一种改进方法。要检测运动场景中的运动目标,关键在于对场景的运动进行估计,通过估计出的运动参数补偿场景的运动,最后再用帧差法得到运动目标。
背景建模主要思想:利用序列图像在时间和空间上的冗余信息,将场景中的运动目标与背景分离。通过先对背景进行建模,然后将当前帧与背景模型进行比较,从而区分出前景与背景,即背景减除法。
背景建模基本方法:希望能建立一种能够适应环境变化的背景模型。统计背景模型包括单高斯模型、混合高斯模型、非参数模型等。单高斯模型假定每个像素特征在时间域上的分布可以由单个高斯分布来描述。混合高斯模型(每个成分对应一个权重,根据权重除以方差对高斯成分进行递减排序,前面b个成分作背景分布,其余成分作前景分布)能描述分布形式更为复杂的背景。经典GMM基于像素建模,忽略了图像结构信息,可以通过引入MRF、非参数密度估计、高斯个数自适应选择等方法改进。
3、 卷积神经网络的一些基本概念,如感受野、dropout、激活函数、pooling 等;
组成:输入层、隐含层{卷积层、池化层、全连接层}、输出层
特点:局部连接、共享权重
感受野:卷积核大小。另一种解释:卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小,该点处的值仅取决于感受野区域内的值。
dropout:在训练过程中(包括正向和反向传播),以一定的概率令神经元随机失活,能够有效防止过拟合。
激活函数:引入非线性因素,通过非线性函数作用于节点的输出,产生激活信息后传入到下一层网络。
pooling:是一种下采样的方法,对同一块内不同位置的特征进行聚合统计,降低特征图大小。
4、 请解释什么是 Over-Fitting(过拟合),并讨论避免 Over-fitting 的解决方法;
过拟合:模型在训练集上的误差很小,但在测试集上的误差很大的现象。通常发生在模型过于复杂的情况下,如参数过多等。
解决方法:正则化(L1、L2)、增加数据样本、提前终止、Dropout
5、 请简述一下在 MPEG-1 视频编码标准中,运动信息在其中起到的作用,并了解 I 帧、B 帧和 P 帧的作用;
利用运动信息,采用运动补偿算法,去掉时间冗余数据,从而实现了压缩。
6、 目标跟踪的基本概念和主要方法;请解释下目标跟踪和目标检测的关系和区别;
目标跟踪的概念:通过对视频数据的处理与分析,将图像序列中不同帧内同一运动目标关联起来,从而计算出目标的运动参数。
单目标跟踪的概念:在第一帧中,给定要跟踪的目标,在后续的视频序列中,确定目标在每一帧中的位置。
目标检测与跟踪的关系:
目标跟踪的主要方法:
分为两类:
有如下方法:
7、物体检测的基本概念和知识(以 R-CNN 为例),R-CNN 的基本流程,如何训练,region proposal,IOU,NMS; 分类&区域。
RCNN:基于候选区域的目标检测
YOLO:基于回归的目标检测
R-CNN基本流程:
R-CNN训练规程:
8、 请展望一下 2030 年的计算机视觉的发展,请从尽量合理的角度举一个计算机视觉的应用例子:2030 年会实现,但现在技术水平还未达到或不成熟。并尽可能解释该例子中的技术方法。
如今,在使用数十亿张图像来解决特定任务方面,计算机可以做到超过人类。尽管如此,在现实世界中,很少能构建或找到包含这么多样本的数据集。 高质量的标注数据在大多数领域都是很难获得的,这限制了诸多计算机视觉算法在相应场景下的应用能力。
在这样的背景下,小样本学习(Few Shot Learning, FSL)的提出将解决数据集规模严重受限条件下的机器学习应用问题。小样本学习方法可以在利用先验知识的前提下,仅由极少量受监督的样本,使模型通过极少步的更新快速提升泛化性能,以应用在新的相关任务上。近年来,小样本学习已经应用于计算机视觉、自然语言处理、人机交互、知识图谱乃至生物计算等领域的诸多应用中。
Few-Shot目标检测领域正在迅速发展,但有效的解决方案并不多。这个问题目前最稳定的解决方案是YOLO+模型不可知元学习算法。
以及其他的难点:非常细粒度的分类,非常小和模糊的目标检测和分割,以及如何保证在复杂光照变化下的分割结果的稳定性。 此外,从图像迁移到视频还面临着平滑性问题,图像中的细微不足在视频中容易被放大。计算机视觉的发展面临瓶颈,深度学习在其中起到的作用有限,需要找到新的突破口。深度学习的进展让 CV 识别准确度大为提高,但深度学习过于依赖大量的标注数据,这让计算机视觉研究人员在简单却繁杂的标注任务上耗费了大量时间,而忽视了更为重要的任务。
9、 分类和聚类的基本概念和区别;
分类:有监督学习,针对给定的样本,从数据中学习一个分类决策函数,输出变量取有限个离散值,代表类别。
聚类:无监督学习,针对给定的样本,根据它们的数据分布,相似的样本分配到相同的簇,不相似的样本分配到不同的簇。聚类的目的是发现数据的分布特点,事前指定簇的个数,但并不知道簇的意义。
10、 请介绍下分类系统中分类器和特征提取模块的作用和功能;
特征提取:CNN、视觉词袋转换为视觉单词的向量化表示。特征即为图像的表示。
分类器:朴素贝叶斯、AdaBoost、SVM、KNN、Softmod等
11、 颜色直方图特征的计算过程。
颜色直方图是在许多图像检索系统中被广泛采用的颜色特征。它所描述的是不同色彩在整幅图像中所占的比例,反映了图像颜色分布的统计特性,而并不关心每种色彩所处的空间位置,即无法描述图像中的对象或物体。颜色直方图特别适于描述那些难以进行自动分割的图像。
计算颜色直方图需要将颜色空间划分成若干个小的颜色区间,每个小区间成为直方图的一个bin。这个过程称为颜色量化。然后,通过计算颜色落在每个小区间内的像素数量可以得到颜色直方图。
12、 请以卷积神经网络模型和颜色直方图为例,解释下自动学习的特征表示和手工设计的特征表示方法的区别;
手工设计特征:SIFT、HOG都是基于图像中梯度方向直方图的特征提取方法,在数据量相对较小的领域,传统机器学习算法速度精准度更具有优势,这是因为传统机器学习算法推理严格、计算过程可控。
自动学习特征:CNN,在大数据处理方面,深度神经网络具有更高的精准度、更广的适用领域。
13、 给定两幅图像,请给出一种图像相似性的计算方法,并讨论其合理性及其不足。
14、 请介绍一下给一副图像(比如下图),其可能包含的各种概念信息类型。现在图像理解技术能做到什么程度?
车辆检测、人群密度估计、车辆密度估计、场景分类、语义分割、微光增强、语义分割、目标检测、目标跟踪...
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。