Li_阴宅

这个屌丝很懒，什么也没留下！

热门标签

国科大. 图像处理与计算机视觉：期末复习题目与知识点总结（二）_国科大计算机视觉期末考试

作者：Li_阴宅 | 2024-06-30 15:04:19

踩

国科大计算机视觉期末考试

1、请简述一下 Bag of Visual Word 的计算过程，并设计一个基于 Bag of Visual Word 的图像分类系统；

（1）特征的提取和描述：使用SIFT算子提取图像的兴趣点与特征描述，为训练集中的每幅图像生成若干个关键点及其描述符。

（2）视觉词典的构建：将提取到的所有SIFT特征进行聚类（假设K个簇），每个聚类中心就是一个视觉单词，从而得到视觉词典。

（3）图像的表示：将图像提取SIFT特征，量化为视觉单词的向量化表示，统计每个单词出现的次数，从而将每个图像表示为一个K维的向量。

对于图像分类任务：首先使用视觉词袋提取特征，之后选取合适的分类器进行分类和识别，比如，可以选择KNN算法或SVM进行分类。

2、请简述一下帧差法检测运动目标的不足之处，并讨论可能的改进方法；背景建模的主要思想和基本方法。

帧差法不足之处：受噪声影响较大。对于动态场景，由于场景与摄像头之间存在复杂的相对运动，传统的帧差方法已经不再适用，如何能对全局的运动进行估计和补偿，成为问题的关键。

帧差法改进方法：背景建模就是一种改进方法。要检测运动场景中的运动目标，关键在于对场景的运动进行估计，通过估计出的运动参数补偿场景的运动，最后再用帧差法得到运动目标。

背景建模主要思想：利用序列图像在时间和空间上的冗余信息，将场景中的运动目标与背景分离。通过先对背景进行建模，然后将当前帧与背景模型进行比较，从而区分出前景与背景，即背景减除法。

背景建模基本方法：希望能建立一种能够适应环境变化的背景模型。统计背景模型包括单高斯模型、混合高斯模型、非参数模型等。单高斯模型假定每个像素特征在时间域上的分布可以由单个高斯分布来描述。混合高斯模型（每个成分对应一个权重，根据权重除以方差对高斯成分进行递减排序，前面b个成分作背景分布，其余成分作前景分布）能描述分布形式更为复杂的背景。经典GMM基于像素建模，忽略了图像结构信息，可以通过引入MRF、非参数密度估计、高斯个数自适应选择等方法改进。

3、卷积神经网络的一些基本概念，如感受野、dropout、激活函数、pooling 等；

组成：输入层、隐含层{卷积层、池化层、全连接层}、输出层

特点：局部连接、共享权重

感受野：卷积核大小。另一种解释：卷积神经网络每一层输出的特征图（feature map）上的像素点在输入图片上映射的区域大小，该点处的值仅取决于感受野区域内的值。

dropout：在训练过程中（包括正向和反向传播），以一定的概率令神经元随机失活，能够有效防止过拟合。

激活函数：引入非线性因素，通过非线性函数作用于节点的输出，产生激活信息后传入到下一层网络。

pooling：是一种下采样的方法，对同一块内不同位置的特征进行聚合统计，降低特征图大小。

4、请解释什么是 Over-Fitting（过拟合），并讨论避免 Over-fitting 的解决方法；

过拟合：模型在训练集上的误差很小，但在测试集上的误差很大的现象。通常发生在模型过于复杂的情况下，如参数过多等。

解决方法：正则化（L1、L2）、增加数据样本、提前终止、Dropout

5、请简述一下在 MPEG-1 视频编码标准中，运动信息在其中起到的作用，并了解 I 帧、B 帧和 P 帧的作用；

利用运动信息，采用运动补偿算法，去掉时间冗余数据，从而实现了压缩。

I：内帧：I帧包含了完整内容的图像，用于为其他帧图像的编解码做参考，所以这也就是我们常说的，关键帧。
P：单向预测帧：P帧是指以它之前出现的I帧作为参考的图像，而对P帧进行编码，其实就是对它们之间的差值进行编码。
B：双向预测帧：B帧是以在它之前和之后的图像，也就I帧和P帧作为参考的图像。对B帧进行编码，就是对它和I帧、P帧的差值分别进行编码。

6、目标跟踪的基本概念和主要方法；请解释下目标跟踪和目标检测的关系和区别；

目标跟踪的概念：通过对视频数据的处理与分析，将图像序列中不同帧内同一运动目标关联起来，从而计算出目标的运动参数。

单目标跟踪的概念：在第一帧中，给定要跟踪的目标，在后续的视频序列中，确定目标在每一帧中的位置。

目标检测与跟踪的关系：

先检测后跟踪，通常用于多目标跟踪，先检测出每一帧的运动目标，然后匹配前后帧中的目标以实现轨迹关联。
边检测边跟踪：将目标的检测与跟踪相结合，检测时利用跟踪结果来确定所要处理的区域范围，跟踪时则利用检测来获得目标状态的观测。首先建立描述目标的特征模型，在起始帧初始化后，不断在后续帧进行匹配搜索。

目标跟踪的主要方法：

分为两类：

生成式模型：从候选样本中选择与目标外观模型最相似的图像块最为跟踪结果
判别式模型：将跟踪问题建模为二值分类问题，即对每一个候选样本判断是背景样本还是目标样本

有如下方法：

基于特征匹配：提取目标的特征，并在每一帧中寻找该特征。寻找的过程就是特征匹配过程。
贝叶斯滤波跟踪：处理多目标跟踪中的不确定性，在贝叶斯理论框架下，将多目标跟踪问题转换为一个推断目标状态最大后验概率的过程。贝叶斯滤波的基本原理就是在所有已知信息的基础上，推断系统状态变量的后验概率密度分布。
卡尔曼滤波跟踪：从本质上讲，卡尔曼滤波器就是一个有噪声的线性动态系统状态预估的递归算法，它是一个不断预测与校正的过程。当假设系统状态模型和观测模型都是线性的并且符合高斯分布，同时噪声也符合高斯分布时，线性卡尔曼滤波器是最优的滤波器。卡尔曼滤波算法即为递推最优估计理论，采用状态空间描述法，以线性最小均方误差作为估计准则，来对状态变量进行最优估计。
Mean Shift均值偏移：在一组数据中发现隐藏的概率密度函数。给定一个初始点x，核函数g(x)，则执行如下步骤直至结束条件满足：
- 计算偏移均值向量m(x)
- 将m(x)赋值给x
- 如果||m(x)-x||< 则结束循环

Mean Shift应用于目标跟踪：
- 初始化搜索窗，使用颜色直方图作为目标模型的描述。
- 计算搜索窗的颜色概率分布。
- 运行meanshift算法，获得新的搜索窗的大小和位置。
- 在下一帧视频图像中重新搜索窗的大小和位置，进行相似度匹配，再跳转到第二步继续进行，直至||m(x)-x||< 。

7、物体检测的基本概念和知识（以 R-CNN 为例），R-CNN 的基本流程，如何训练，region proposal，IOU，NMS；分类&区域。

RCNN：基于候选区域的目标检测

YOLO：基于回归的目标检测

R-CNN基本流程：

区域建议：通过选择性搜索（采用了图像分割和层次算法），从原始图片中提取若干个区域候选框
区域归一化：将所有的候选框缩放到固定大小
提取特征：CNN网络为每个候选区域生成固定长度的特征向量
区域分类：SVMs结合NMS（非极大值抑制，选择概率最大的区域，抑制掉IoU大于阈值的其他区域）获取区域边框，最后通过线性回归器进行位置精修。

R-CNN训练规程：

预训练（迁移学习）：在ImageNet数据集上进行CNN的预训练
调优训练：在PASCAL数据集上进行微调
训练SVM分类器：每一个建议区域与标准框的IoU大于阈值则为正样本，否则为负样本。正样本包括标注的样本与IoU大于阈值的建议区域。由于正样本远远少于负样本，所以从负样本中选取一些有代表性的负样本。

8、请展望一下 2030 年的计算机视觉的发展，请从尽量合理的角度举一个计算机视觉的应用例子：2030 年会实现，但现在技术水平还未达到或不成熟。并尽可能解释该例子中的技术方法。

如今，在使用数十亿张图像来解决特定任务方面，计算机可以做到超过人类。尽管如此，在现实世界中，很少能构建或找到包含这么多样本的数据集。高质量的标注数据在大多数领域都是很难获得的，这限制了诸多计算机视觉算法在相应场景下的应用能力。

在这样的背景下，小样本学习（Few Shot Learning, FSL）的提出将解决数据集规模严重受限条件下的机器学习应用问题。小样本学习方法可以在利用先验知识的前提下，仅由极少量受监督的样本，使模型通过极少步的更新快速提升泛化性能，以应用在新的相关任务上。近年来，小样本学习已经应用于计算机视觉、自然语言处理、人机交互、知识图谱乃至生物计算等领域的诸多应用中。

Few-Shot目标检测领域正在迅速发展，但有效的解决方案并不多。这个问题目前最稳定的解决方案是YOLO+模型不可知元学习算法。

以及其他的难点：非常细粒度的分类，非常小和模糊的目标检测和分割，以及如何保证在复杂光照变化下的分割结果的稳定性。此外，从图像迁移到视频还面临着平滑性问题，图像中的细微不足在视频中容易被放大。计算机视觉的发展面临瓶颈，深度学习在其中起到的作用有限，需要找到新的突破口。深度学习的进展让 CV 识别准确度大为提高，但深度学习过于依赖大量的标注数据，这让计算机视觉研究人员在简单却繁杂的标注任务上耗费了大量时间，而忽视了更为重要的任务。

9、分类和聚类的基本概念和区别；

分类：有监督学习，针对给定的样本，从数据中学习一个分类决策函数，输出变量取有限个离散值，代表类别。

聚类：无监督学习，针对给定的样本，根据它们的数据分布，相似的样本分配到相同的簇，不相似的样本分配到不同的簇。聚类的目的是发现数据的分布特点，事前指定簇的个数，但并不知道簇的意义。

10、请介绍下分类系统中分类器和特征提取模块的作用和功能；

特征提取：CNN、视觉词袋转换为视觉单词的向量化表示。特征即为图像的表示。

分类器：朴素贝叶斯、AdaBoost、SVM、KNN、Softmod等

11、颜色直方图特征的计算过程。

颜色直方图是在许多图像检索系统中被广泛采用的颜色特征。它所描述的是不同色彩在整幅图像中所占的比例，反映了图像颜色分布的统计特性，而并不关心每种色彩所处的空间位置，即无法描述图像中的对象或物体。颜色直方图特别适于描述那些难以进行自动分割的图像。

计算颜色直方图需要将颜色空间划分成若干个小的颜色区间，每个小区间成为直方图的一个bin。这个过程称为颜色量化。然后，通过计算颜色落在每个小区间内的像素数量可以得到颜色直方图。

12、请以卷积神经网络模型和颜色直方图为例，解释下自动学习的特征表示和手工设计的特征表示方法的区别；

手工设计特征：SIFT、HOG都是基于图像中梯度方向直方图的特征提取方法，在数据量相对较小的领域，传统机器学习算法速度精准度更具有优势，这是因为传统机器学习算法推理严格、计算过程可控。

自动学习特征：CNN，在大数据处理方面，深度神经网络具有更高的精准度、更广的适用领域。

13、给定两幅图像，请给出一种图像相似性的计算方法，并讨论其合理性及其不足。

直方图能够描述一幅图像中颜色的全局分布，构建直方图，向量化表示，余弦相似度。直方图过于简单，只能捕捉颜色信息的相似性，捕捉不到更多的信息。只要颜色分布相似，就会判定二者相似度较高，显然不合理。
提取特征，把图片表示成一个向量，通过计算向量之间的余弦距离来表征两张图片的相似度。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似。余弦相似度对具体数值的绝对值大小不敏感，因此无法衡量数值上的差异。
孪生网络：两个网络分别接受输入，共享权重，然后计算两个输出向量之间的距离或者相似度，以此来判别原输入的相似性。

14、请介绍一下给一副图像（比如下图），其可能包含的各种概念信息类型。现在图像理解技术能做到什么程度？

车辆检测、人群密度估计、车辆密度估计、场景分类、语义分割、微光增强、语义分割、目标检测、目标跟踪...

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Li_阴宅/article/detail/773032