第一章、CS231N课程简介

作者：Li_阴宅 | 2024-08-03 01:32:41

踩

cs231n

一、计算机视觉研究范围

二、计算机视觉与深度学习的历史

1.计算机视觉的发展历史

(1)早期探索（20世纪50年代至70年代）

20世纪50年代：研究生物视觉的工作原理，如Hubel和Wiesel对猫咪视觉皮层系统的研究，揭示了信息分层处理机制。
20世纪60年代：计算机视觉萌芽，Larry Roberts发行了Block World作品，提出了基于几何形状的物体识别方法。
20世纪70年代：开创性提出识别流程，Marr将视觉识别过程划分为三个阶段，包括简单结构处理、深度信息和层级信息处理、以及基于表面和体积图元的3D模型。

(2)特征提取与图像分割（20世纪80年代至90年代）

20世纪80年代：着眼于提取特征，人们试图建立专家系统来存储先验知识，并与实际项目中提取的特征进行规则匹配。
20世纪90年代：图像分割成为研究热点，Paul Viola和Michael Johns等人利用Adaboost算法完成了人脸的实时检测。

(3)深度学习时代（2010年至今）

计算机运算能力指数级增长，深度学习相关算法得到应用与革新。
大型数据库如ImageNet、PASCAL等超大型图片数据库使得深度学习训练成为可能。
ImageNet挑战赛上，深度学习技术取得了显著突破，错误率大幅下降。

2.深度学习的发展历史

(1)早期研究（20世纪40年代至80年代）

深度学习的概念起源于20世纪40年代，Warren McCulloch和Walter Pitts提出了神经网络的概念。
20世纪50年代，Frank Rosenblatt提出了感知机，这是最早的深度学习模型之一。
20世纪80年代，随着计算机性能的提高和BP算法的发明，神经网络再次成为热门话题。

(2)理论研究与应用扩展（20世纪90年代至21世纪初）

深度学习理论和应用开始发展，主要集中在单层感知机和多层感知机上。
Yann LeCun等学者在1998年提出了卷积神经网络（CNN），并在手写字符识别任务上取得重大突破。

(3)快速发展与广泛应用（2010年至今）

深度学习的研究和应用进入快速发展阶段，神经网络的深度和宽度不断增加。
Geoffrey Hinton等学者在2006年提出了深度信念网络（DBN），为深度学习的发展打下了基础。
出现了循环神经网络（RNN）、长短时记忆网络（LSTM）等新的神经网络结构，可以处理更加复杂的任务。
深度学习被广泛应用于计算机视觉、语音识别、自然语言处理、智能推荐等领域，取得了显著进展。

3.举例：AlexNet网络

这里对AlexNet进行简要的介绍，在这里只是提前感受一下深度学习网络的连接，具体需要学习的知识后面会慢慢完善。


# AlexNet基于PyTorch实现
import torch  
import torch.nn as nn  
  
class AlexNet(nn.Module):  
    def __init__(self, num_classes=1000):  
        super(AlexNet, self).__init__()  
        self.features = nn.Sequential(  
            nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=2),  
            nn.ReLU(inplace=True),  
            nn.MaxPool2d(kernel_size=3, stride=2),  
            nn.Conv2d(96, 256, kernel_size=5, padding=2),  
            nn.ReLU(inplace=True),  
            nn.MaxPool2d(kernel_size=3, stride=2),  
            nn.Conv2d(256, 384, kernel_size=3, padding=1),  
            nn.ReLU(inplace=True),  
            nn.Conv2d(384, 384, kernel_size=3, padding=1),  
            nn.ReLU(inplace=True),  
            nn.Conv2d(384, 256, kernel_size=3, padding=1),  
            nn.ReLU(inplace=True),  
            nn.MaxPool2d(kernel_size=3, stride=2),  
        )  
        self.avgpool = nn.AdaptiveAvgPool2d((6, 6))  
        self.classifier = nn.Sequential(  
            nn.Dropout(),  
            nn.Linear(256 * 6 * 6, 4096),  
            nn.ReLU(inplace=True),  
            nn.Dropout(),  
            nn.Linear(4096, 4096),  
            nn.ReLU(inplace=True),  
            nn.Linear(4096, num_classes),  
        )  
  
    def forward(self, x):  
        x = self.features(x)  
        x = self.avgpool(x)  
        x = torch.flatten(x, 1)  
        x = self.classifier(x)  
        return x