赞
踩
人工智能 (AI)
一、人工智能简介
1.1.人工智能定义和发展历史
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
ANI :弱人工智能
AGI:强人工智能
1.2.人工智能发展必备三要素
1.2.1.三要素
1)数据
2)算法
3)计算力:CPU,GPU,TPU
CPU:主要适合IO密集型任务
GPU:主要适合计算密集型任务
计算密集的程序:所谓计算密集型的程序,就是其大部分运行时间花在寄存器运算上,寄存器的速度和处理器的速度相当,从寄存器读写数据几乎没有延迟,可做一下对比,读取内存的延迟大概几百个时钟周期,读硬盘的速度就不说了,即使是ssd,也是很慢的
1.2.人工智能发展必备三要素
二、实现人工智能实现的核心技术
概括来说,人工智能、机器学习和深度学习覆盖的技术范畴是逐层递减的。人工智能是最宽泛的概念。机器学习是当前比较有效的一种实现人工智能的方式。深度学习是机器学习算法中最热门的一个分支,近些年取得了显著的进展,并替代了大多数传统机器学习算法。三者的关系如 图1 所示,即:人工智能 > 机器学习 > 深度学习。
图1:人工智能、机器学习和深度学习三者关系示意
如字面含义,人工智能是研发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。由于这个定义只阐述了目标,而没有限定方法,因此实现人工智能存在的诸多方法和分
2.1、数据科学
2.1.1 数据科学定义
当今时代是数据为王的大数据时代,并由此催生了数据科学这门新兴的学科。数据科学是一门多学科交叉的综合学科,包含数据获取、数据分析、数据管理、机器学习、统计优化和数据可视化等内容,逐渐成为探明大数据集本源,并把大数据转换成可执行智能的有效方法。
数据挖掘不是新产生的东西,它在很多年前就被提出了。随着近几年人工智能领域受到关注,数据挖掘也开始被人提起。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
2.1.2 数据科学应用流程
1.收集数据
2.分析数据
3.提出假设和行动
4.定期继续获取数据不断迭代
2.1.3 数据科学于机器学习对比
2.2、计算机视觉
(1)定义:
计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息,就像人类和许多其他类生物每天所做的那样。
计算机视觉是一门关于如何运用照相机和计算机来获取我们所需的,被拍摄对象的数据与信息的学问。形象地说,就是给计算机安装上眼睛(照相机)和大脑(算法),让计算机能够感知环境。我们中国人的成语"眼见为实"和西方人常说的"One picture is worth ten thousand words"表达了视觉对人类的重要性。不难想象,具有视觉的机器的应用前景能有多么地宽广。
(2)应用:
计算机视觉有着广泛的应用,其中包括:医疗成像分析被用来提高疾病预测、诊断和治疗;人脸识别被Facebook用来自动识别照片里的人物;在安防及监控领域被用来指认嫌疑人;在购物方面,消费者现在可以用智能手机拍摄下产品以获得更多购买选择。
2.3、自然语言处理
3、自然语言处理:
(1)定义:自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。因此,自然语言处理是与人机交互的领域有关的。在自然语言处理面临很多挑战,包括自然语言理解,因此,自然语言处理涉及人机交互的面积。在NLP诸多挑战涉及自然语言理解,即计算机源于人为或自然语言输入的意思,和其他涉及到自然语言生成。
文本分类:文本分类是指给定一个文本,预测其所属的预定类别。像是垃圾邮件的过滤,它可以依照文本分类电子邮件的垃圾邮件。还可以对源文本的语言进行分类,以及题材分类,分类虚构故事的体裁等等。
语言建模:生成新的文章标题;生成新的句子,段落或文档;生成后续句子建议。
语音识别:生成演讲文本;为电影或电视节目创建字幕;开车时向收音机发出命令。
说明生成:描述场景的内容;创建照片的标题;描述视频。
信息抽取
信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程,从自然语言构成的语料中提取出命名实体之间的关系,是一种基于命名实体识别更深层次的研究。信息抽取的主要过程有三步:首先对非结构化的数据进行自动化处理,其次是针对性的抽取文本信息,最后对抽取的信息进行结构化表示。信息抽取最基本的工作是命名实体识别,而核心在于对实体关系的抽取。
自动文摘
自动文摘是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术,旨在实现两个目标:首先使语言的简短,其次要保留重要信息。
语音识别技术
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,也就是让机器听懂人类的语音,其目标是将人类语音中的词汇内容转化为计算机可读的数据。要做到这些,首先必须将连续的讲话分解为词、音素等单位,还需要建立一套理解语义的规则。语音识别技术从流程上讲有前端降噪、语音切割分帧、特征提取、状态匹配几个部分。而其框架可分成声学模型、语言模型和解码三个部分。
机器翻译:机器翻译是指将一种语言的源文本转换为另一种语言。机器翻译的语言模型用于依据源文本,输出第二语言的目标文本。
2.4、机器学习
2.4.1.什么是机器学习
机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。
机器学习有下面几种定义:
(1)机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
(2)机器学习是对能通过经验自动改进的计算机算法的研究。
(3)机器学习是用数据或以往的经验,以此优化计算机程序的性能标准
2.4.2.机器学习工作流程
1.获取数据
2.数据基本处理
3.特征工程
4.机器学习(选择算法模型训练)
5.模型评估
结果达到要求,上线
结果没有达到要求,继续上面步骤
2.4.3.机器学习算法分类
1.监督学习
输入数据是由输入特征值和目标值组成
函数的输出可以是一个连续的值(称为回归)
或是输出是有限个离散值(称为分类)
2.无监督学习
输入数据是由输入特征值组成,没有目标值
输入数据没有被标记,也没有确定的结果,样本数据类别未知
需要数据样板间的相似性对样本集体进行类别划分
3.半监督学习
训练集同时包含有标记样本数据和未标记样本数据
4.强化学习
实质是自动进行决策,并且可以连续决策
2.4.4 机器学习常用算法
线性回归
Logistic 回归
线性判别分析(LDA)
分类与回归树
决策树是预测建模机器学习的一种重要算法。
决策树模型的表示是一个二叉树。这是算法和数据结构中的二叉树,没什么特别的。每个节点代表一个单独的输入变量 x 和该变量上的一个分割点(假设变量是数字)。
决策树
决策树的叶节点包含一个用于预测的输出变量 y。通过遍历该树的分割点,直到到达一个叶节点并输出该节点的类别值就可以作出预测。
决策树学习速度和预测速度都很快。它们还可以解决大量问题,并且不需要对数据做特别准备。
5. 朴素贝叶斯
6. K 近邻算法
7. 学习向量量化
8. 支持向量机(SVM)
支持向量机可能是最受欢迎和最广泛讨论的机器学习算法之一。
超平面是分割输入变量空间的一条线。在 SVM 中,选择一条可以最好地根据输入变量类别(类别 0 或类别 1)对输入变量空间进行分割的超平面。在二维中,你可以将其视为一条线,我们假设所有的输入点都可以被这条线完全的分开。SVM 学习算法找到了可以让超平面对类别进行最佳分割的系数。
支持向量机
超平面和最近的数据点之间的距离被称为间隔。分开两个类别的最好的或最理想的超平面具备最大间隔。只有这些点与定义超平面和构建分类器有关。这些点被称为支持向量,它们支持或定义了超平面。实际上,优化算法用于寻找最大化间隔的系数的值。
SVM 可能是最强大的立即可用的分类器之一,值得一试。
Bagging 和随机森林
随机森林是最流行和最强大的机器学习算法之一。它是 Bootstrap Aggregation(又称 bagging)集成机器学习算法的一种。
bootstrap 是从数据样本中估算数量的一种强大的统计方法。例如平均数。你从数据中抽取大量样本,计算平均值,然后平均所有的平均值以便更好的估计真实的平均值。
bagging 使用相同的方法,但是它估计整个统计模型,最常见的是决策树。在训练数据中抽取多个样本,然后对每个数据样本建模。当你需要对新数据进行预测时,每个模型都进行预测,并将所有的预测值平均以便更好的估计真实的输出值。
随机森林
随机森林是对这种方法的一种调整,在随机森林的方法中决策树被创建以便于通过引入随机性来进行次优分割,而不是选择最佳分割点。
因此,针对每个数据样本创建的模型将会与其他方式得到的有所不同,不过虽然方法独特且不同,它们仍然是准确的。结合它们的预测可以更好的估计真实的输出值。
如果你用方差较高的算法(如决策树)得到了很好的结果,那么通常可以通过 bagging 该算法来获得更好的结果。
Boosting 和 AdaBoost
总结
即使是经验丰富的数据科学家在尝试不同的算法之前,也无法分辨哪种算法会表现最好。虽然还有很多其他的机器学习算法,但本篇文章中讨论的是最受欢迎的算法。如果你是机器学习的新手,这将是一个很好的学习起点。
2.4.5.机器学习模型评估
1.分类模型评估
2。回归模型评估
3.拟合: 模型评估用用评价模型训练好的模型的表现效果。其表现效果分为两类
2.4.6.深度学习简介
深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。
深度学习是一类模式分析方法的统称,就具体研究内容而言,主要涉及三类方法:
(1)基于卷积运算的神经网络系统,即卷积神经网络(CNN)。
(2)基于多层神经元的自编码神经网络,包括自编码( Auto encoder)以及近年来受到广泛关注的稀疏编码两类( Sparse Coding)。
(3)以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)。
通过多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示后,用“简单模型”即可完成复杂的分类等学习任务。由此可将深度学习理解为进行“特征学习”(feature learning)或“表示学习”(representation learning)。
————————————————
版权声明:本文为CSDN博主「shuai809853150」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/shuai809853150/article/details/118940216
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。