赞
踩
在介绍深度学习之前,我们先看下人工智能,机器学习和深度学习之间的关系:
机器学习是实现人工智能的⼀种途径,深度学习是机器学习的⼀个⼦集,也就是说深度学习是实现机器学习的⼀种⽅法。与机器学习算法的主要区别如下图所示:
传统机器学习算术依赖⼈⼯设计特征,并进⾏特征提取,⽽深度学习⽅法不需要⼈⼯,⽽是依赖算法⾃动提取特征。深度学习模仿⼈类⼤脑的运⾏⽅式,从经验中学习获取知识。这也是深度学习被看做⿊盒⼦,可解释性差的原因。
随着计算机软硬件的⻜速发展,现阶段通过深度学习来模拟⼈脑来解释数据,包括图像,⽂本,⾳频等内容。⽬前深度学习的主要应⽤领域有:
智能⼿机
语⾳识别
⽐如苹果的智能语⾳助⼿siri
机器翻译
⾕歌将深度学习⽅法嵌⼊到⾕歌翻译中,能够⽀持100多种语⾔的即时翻译。
拍照翻译
⾃动驾驶
当然在其他领域也能见到深度学习的身影,比如风控,安防,智能零售,医疗领域,推荐系统等。
20世纪90年代,各种各样的浅层机器学习模型相继被提出,例如支撑向量机(SVM,Support Vector Machines)、 Boosting、最大熵方法(如LR,Logistic Regression)等。这些模型的结构基本上可以看成带有一层隐层节点(如SVM、Boosting),或没有隐层节点(如LR)。这些模型无论是在理论分析还是应用中都获得了巨大的成功。相比之下,由于理论分析的难度大,训练方法又需要很多经验和技巧,这个时期浅层人工神经网络反而相对沉寂.
2006年,杰弗里·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫正式提出了深度学习的概念。他们在世界顶级学术期刊《科学》发表的一篇文章中详细的给出了“梯度消失”问题的解决方案——通过无监督的学习方法逐层训练算法,再使用有监督的反向传播算法进行调优。该深度学习方法的提出,立即在学术圈引起了巨大的反响,以斯坦福大学、多伦多大学为代表的众多世界知名高校纷纷投入巨大的人力、财力进行深度学习领域的相关研究。而后又迅速蔓延到工业界中。
总结:深度学习是机器学习算法的一种,通过模拟人脑实现相应的功能;应用场景主要包含手机,机器翻译,自动驾驶,语音识别,医疗,安防等。
计算机视觉是指用摄像机和电脑及其他相关设备,对生物视觉的一种模拟。它的主要任务让计算机理解图片或者视频中的内容,就像人类和许多其他生物每天所做的那样。
我们可以将其任务目标拆分为:
那我们在OpenCV阶段,主要学习图像处理,而图像处理主要目的是对图像的处理,比如平滑,缩放等,想、从而为其他任务(比如“计算机视觉”)做好前期工作。
根据上述对计算机视觉目标任务的分解,可将其分为三大经典任务:图像分类、目标检测、图像分割
计算机视觉涉及的领域复杂,具有广泛的实际应用范围。总体而言,依赖于人工智能和机器学习,尤其是计算机视觉的创新的好处是,从电子商务行业到更经典的各种类型和规模的公司都可以利用其强大的功能,下图展示了相关的应用场景及相关的企业:
⼈脸识别技术⽬前已经⼴泛应⽤于⾦融、司法、军队、公安、边检、政府、航天、电⼒、⼯⼚、教育、医疗等⾏业。据业内⼈⼠分析,我国的⼈脸识别产业的需求旺盛,需求推动导致企业敢于投⼊资⾦。代表企业:Face++旷视科技、依图科技、商汤科技、深醒科技、云从科技等。
⼈⼯智能技术可以对结构化的⼈、⻋、物等视频内容信息进⾏快速检索、查询。这项应⽤使得让公安系统在繁杂的监控视频中搜寻到罪犯的有了可能。在⼤量⼈群流动的交通枢纽,该技术也被⼴泛⽤于⼈群分析、防控预警等。
代表企业:SenseT ime 商汤科技、DeepGlint 格灵深瞳、依图科技、云天励⻜、深⽹视界等。
代表企业:Face++旷视科技、图普科技、码隆科技、酒咔嚓、YI+陌上花科技等。
随着汽⻋的普及,汽⻋已经成为⼈⼯智能技术⾮常⼤的应⽤投放⽅向,但就⽬前来说,想要完全实现⾃动驾驶/⽆⼈驾驶,距离技术成熟还有⼀段路要⾛。不过利⽤⼈⼯智能技术,汽⻋的驾驶辅助的功能及应⽤越来越多,这些应⽤多半是基于计算机视觉和图像处理技术来实现。代表企业:纵⽬科技、T uSimple 图森科技、驭势科技、MINIEYE 佑驾创新、中天安驰等。
除了上述这些,计算机视觉在三维视觉,三维重建,⼯业仿真,地理信息
系统,⼯业视觉,医疗影像诊断,⽂字识别(OC R),图像及视频编辑等
领域也有⼴泛的应⽤。
2009年,由Felzenszwalb教授在提出基于HOG的deformable parts model,可变形零件模型开发,它是深度学习之前最好的最成功的objectdetection & recognition算法。
Everingham等人在2006年至2012年间搭建了一个大型图片数据库,供机器识别和训练,称为PASCAL Visual Object Challenge,该数据库中有20种类别的图片,每种图片数量在一千至一万张不等。
2009年,李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,发布了ImageNet数据集,这是为了检测计算机视觉能否识别自然万物,回归机器学习,克服过拟合问题。
2012 年,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 创造了一个“大型的深度卷积神经网络”,也即现在众所周知的 AlexNet,赢得了当年的 ILSVRC。这是史上第一次有模型在 ImageNet 数据集表现如此出色。自那时起,CNN 才成了家喻户晓的名字。
2014年,蒙特利尔大学提出生成对抗网络(GAN):拥有两个相互竞争的神经网络可以使机器学习得更快。一个网络尝试模仿真实数据生成假的数据,而另一个网络则试图将假数据区分出来。随着时间的推移,两个网络都会得到训练,生成对抗网络(GAN)被认为是计算机视觉领域的重大突破。
总结:计算机视觉就是让计算机理解图片或者视频中的内容;计算机视觉的任务是图像分类,目标检测,图像分割;应用场景包括人脸识别,视频监控,图片识别分析,辅助驾驶。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。