小蓝xlanll

这个屌丝很懒，什么也没留下！

热门标签

article

8.大数据架构详解：从数据获取到深度学习 --- 机器学习和数据挖掘_具有数据挖掘的大数据架构

作者：小蓝xlanll | 2024-02-17 03:53:45

踩

具有数据挖掘的大数据架构


	机器学习是一门多领域交叉学科，涉及概率论，统计学，逼近论，凸分析，算法复杂度理论等多门学科。其专门研究计算机是怎样模拟或实现人类的学习行为，以获取新的
知识或者技能，重新组织已有的知识结构，使之不断改善自身的性能。
 
8.1 机器学习和数据挖掘的联系与区别 
	数据挖掘是从海量数据中获取有效的，新颖的，潜在有用的，最终可理解的模式的非平凡过程。数据挖掘中大量用到了机器学习界提供的数据分析技术和数据库界提供的数据管理技术。
不同之处，比如，数据挖掘并没有机器学习探索人的学习机制这一科学发现任务，数据挖掘中的数据分析是针对海量数据进行的，等等。某种程度来说，机器学习的科学成分更重一些，而数据
挖掘的技术成分更重一些。
	而机器学习则希望系统能够利用经验来改善自身的性能，在计算机中，"经验"通常是以数据形式存在的，因此机器学习不仅涉及对人的认知学习过程的探索，还涉及对数据的分析处理。
 
8.2 典型的数据挖掘和机器学习过程 
	如一个典型的推荐类应用，有如下几个部分：
		1.业务理解
			理解业务本身，其本质是什么？是分类问题还是回归问题？数据怎么获取？应用哪些模型才能解决问题？
 
		2.数据理解
			获取数据之后，分析数据里面有什么内容，数据是否正确，为下一步的预处理做准备。
 
		3.数据预处理
			原始数据会有噪声，格式化也不好，所以为了保证预测的准确性，需要进行数据的预处理。
 
		4.特征提取
			特征提取是机器学习最重要，最耗时的一个阶段。
 
		5.模型构建
			使用适当的算法，获取预期准确的值。
 
		6.模型评估
			根据测试集来评估模型的准确度。
 
		7.模型应用
			将模型部署，应用到实际生产环境中。
 
		8.应用效果评估
			根据最终的业务，评估最终的应用效果。
 
		整个过程会不断反复，模型也会不断的调整，直到达到理想的效果。
 
8.3 机器学习概览 
	机器学习的算法有很多，这里从2方面介绍：一个是学习方式，一个是算法类似性。
 
	8.3.1 学习方式 
		根据数据类型的不同，对一个问题的建模可以有不同的方式。在机器学习或者人工智能，人们首先会考虑算法的学习方式。在机器学习领域有如下几种主要的学习方式：
		1.监督式学习
		2.非监督式学习
		3.半监督学习
		4.强化学习
 
		在企业数据应用的场景下，人们最常用的可能就是监督学习和非监督学习。在图像识别领域等领域，由于存在大量的非标识数据和少量的可标识数据，目前半监督学习是一个热门话题，
	而强化学习更多的是应用在机器人控制及其他需要进行系统控制的领域。
 
	8.3.2 算法类似性 
		根据算法的功能和形式的类似性，可以对算法进行分类。
		1.回归算法
		2.基于实例的算法
		3.正则化算法
		4.决策树算法
		5.贝叶斯算法
		6.基于核的算法
		7.聚类算法
		8.关联规则学习
		9.人工神经网络算法
		10.深度学习算法
		11.降低维度算法
		12.集成算法
 
8.4 机器学习&数据挖掘应用案例 
	8.4.1 尿布和啤酒的故事 
	8.4.2 决策树用于电信领域故障快速定位 
	8.4.3 图像识别领域 
	8.4.4 自然语言识别 
 
8.5 交互式分析 
	一个优秀的数据科学家需要具备的素质包括：懂数据采集，数学算法，数学软件，数据分析，预测分析，市场应用，决策分析等。
	传统的典型应用(推荐系统)的一个数据流过程，需要经历"使用Hadoop做 etl -> 使用 Impala/Drill 等做数据探索 -> 使用 Tableau 做报表 -> 使用R语言或者Mahout做
高级分析 -> 最终形成一个数据产品"等过程。
 
8.6 深度学习 
	8.6.1 深度学习概述 
	8.6.2 机器学习的背景 
	8.6.3 人脑视觉机理 
	8.6.4 关于特征 
	8.6.5 需要有多少个特征 
	8.6.6 深度学习的基本思想 
	8.6.7 浅层学习和深度学习 
	8.6.8 深度学习与神经网络 
	8.6.9 深度学习的训练过程 
	8.6.10 深度学习的框架 
	8.6.11 深度学习与GPU
		深度学习需要很高的内在并行度，大量的浮点计算能力及矩阵预算，而GPU能提供这些能力。
 
		CPU和GPU没有本质的区别，主要区别在于cpu的目标是让用户有更短的响应时间，即在编辑文档或者浏览网页的时候，用最短的时间对鼠标，键盘操作做出响应。要达到这个目的，
	最重要的是单线程的处理能力，所以在进行芯片设计的时候，里面有大量的单元是来保证单线程处理性能。cpu有大量的资源做分级预测或者单线程寻找并行的工作，总体来说就是LU，即
	真正实现浮点运算的公共单元比例比GPU少。
		另外，GPU 计算在设计的时候要保证做图形图像渲染有很好的性能。图形图像渲染任务与其他领域的计算或者通用计算的差别不是很大。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/blog/article/detail/99799

推荐阅读

article
一文让你弄懂人工智能深度学习是怎么回事
深度学习属于机器学习的范畴，深度学习可以说是在传统神经网络基础上的升级，约等于神经网络。深度学习和传统机器学习在数据预处理上都是类似的。核心差别在特征提取环节，深度学习由机器自己完成特征提取，不需要人工提取。学习能力强覆盖范围广，适应性好数... [详细]
赞
踩
article
svn回退特定版本的提交_tortoise svn如何从之前某个版本提交更新
Windows下使用TortoiseSVN，这个功能很容易实现，选中提交的记录，邮件菜单里选择Revertchangesfromthisrevison。但是如果代码在Linux上，并且通过Windows挂载smb目录操作的话，很容易破坏数据... [详细]
赞
踩
article
超级详细 JAVA 对接 ChatGPT 教程，实现自己的AI对话小助手_chatgpt4 搭建 java
至此JAVA对OpenAI对接就已经完成了，并且也支持连续对话，大家可以在此基础上不断地完善和桥接到web服务，定制自己的ChatGPT助手了。我自己也搭建了个平台，不断地在完善中，想要体验的可以用微信登录体验。_chatgpt4搭建jav... [详细]
赞
踩
article
人工智能入门书单（附PDF链接）_人工智能极简编程入门pdf
接收程序员的8点技术早餐作者｜王天一出处｜极客时间专栏《人工智能基础课》工学博士、副教授的人工智能珍藏书单，随文附送PDF版本链接。机器学习篇在机器学习上，首先要推荐的是两部国内作者的著作：李航博士所著的《统计学习方法》和周志华教授的《机器... [详细]
赞
踩
article
【JAVA swagger】解决No mapping for GET /swagger-ui.html报错_no mapping for get /swagger-ui/index.html
解决javaspringboot框架中NomappingforGET/swagger-ui.html报错问题_nomappingforget/swagger-ui/index.htmlnomappingforget/swagger-ui/i... [详细]
赞
踩
article
为什么是manjaro_manjarovsarmbian
玩过哪些linux发行版笔者这么多年开发Linux，最开始学习linux的时候用的是ubuntu，不得不说以前的ubuntu其实界面还是比较ok的，虽然现在看觉得也没什么进步这么多年了。后面玩arm开发板和树莓派之类，最开始编译裁剪内核跑嵌... [详细]
赞
踩
article
microSD EXPRESS - 用于移动设备的最快存储卡_micro sd card支持sd express
microSDExpress集成了PCIe®和NVMe™以融合SDExpress，传输速率高达985MB/秒，具有向后兼容性巴塞罗那--(美国商业资讯)--世界移动大会CS120展位-SD协会今天宣布microSDExpress将提供流行的... [详细]
赞
踩
article
国产9个chatGPT免费网址总结_免费节点
##[史上最全文档AI绘画stablediffusion资料分享](https://zkk-1300025204.cos.ap-nanjing.myqcloud.com/%E5%8F%B2%E4%B8%8A%E6%9C%80%E5%85%A... [详细]
赞
踩
article
基于WDF的PCI/PCIe接口卡Windows驱动程序（5）-如何为硬件移植驱动程序
原文地址：http://www.cnblogs.com/jacklu/p/6139347.html正如前几篇博客所说，使用WDF开发PCIe驱动程序是我本科毕业设计的主要工作。在读研的两年，我也分别为所在课题组移植了自己编写的驱动程序，在W... [详细]
赞
踩
article
Cesium 3dtiles详解（2）-b3dm_3dtiles batchid是什么
b3dm，即Batch3dmodel的缩写，Batch，即批量，指的是多个几何数据，b3dm就是多个数据模型组合在一起存储的一种文件而产生的一种文件格式。_3dtilesbatchid是什么3dtilesbatchid是什么一、简介b3dm... [详细]
赞
踩
article
Pygame下载和安装_pygame库下载
Pygame的下载非常简单，可分为两种方式：一是通过Python的包管理器pip来安装；二是下载二进制安装包进行安装。其中使用pip包管理器安装是最简单、最轻量级的方法，下面以Windows系统为例对上述两种方式进行讲解。_pygame库下... [详细]
赞
踩
article
人形机器人专题：准直驱执行器深度：人形机器人执行器技术的前沿
今天分享的是深度研究报告：《（报告出品方：招商证券）页。人形机器人专题：准直驱执行器深度：人形机器人执行器技术的前沿今天分享的是人形机器人系列深度研究报告：《人形机器人专题：准直驱执行器深度：人形机器人执行器技术的前沿》。（报告出品方：招商... [详细]
赞
踩
article
安大计算机考研专硕改数一英一了,What？这些个专业改考数一英一了！
原标题：What？这些个专业改考数一英一了！每年在大纲公布后都有不少同学叫苦不迭因为每次都有考研招生院校临时做出调整有些院校在考试科目上，改考数一英一！之前的文章也有说到一些院校的某些专业停止招生，学硕招生缩减大家在认真备考的同时要尽早关注... [详细]
赞
踩
article
机械键盘连击怎么处理_预热双十一！2020年电脑外设键盘怎么选？小白晋升老司机选择机械键盘的详细技巧，闭坑选购机械键盘指南...
现在电脑已成为我们生活中必不可少的办公、娱乐设备之一了，拥有电脑那么肯定缺少不了键盘这个外设。对于游戏娱乐时键盘能够让你的操作更加流畅舒适，使游戏体验感达到最佳；对于办公上的话，一款好的适合办公使用的键盘能够有效的帮助到你提高工作效率。那么... [详细]
赞
踩
article
大规模数据处理在深度学习中如何应用_深度学习在大数据中的应用
你需要去跟踪用户与这个功能的交互。通过这些追踪的用户行为，你就能利用大规模的数据处理技术，不断地为你的深度学习模型提供更多现实的数据，去进一步训练改进模型，也能利用用户行为去评估当前模型的表现。理解了大规模数据在深度学习发展中扮演的主要角色... [详细]
赞
踩
article
【深度学习】S2 数学基础 P5 自动微分
深度学习-自动微分【深度学习】S2数学基础P5自动微分目录自动微分Autograd自动微分函数简单案例自动微分Autograd深度学习框架，因为存在自动微分技术，可以自动计算梯度，这极大地提升了训练复杂神经网络模型的效率。从而无需繁琐的手动... [详细]
赞
踩
article
车载摄像头技术、市场、发展前景_gmsl摄像机是替代什么技术
阿宝1990小孔成像在战国初期，我国学者墨子（公元前468年-公元前376年）和弟子们完成了世界上第一个小孔成像的实验，并记录在《墨经》中：“景到，在午有端，与景长。说在端。”“景。光之人，煦若射，下者之人也高；高者之人也下。足蔽下光，故成... [详细]
赞
踩
article
【开源】SpringBoot框架开发考研专业课程管理系统
基于JAVA+Vue+SpringBoot+MySQL的考研专业课程管理系统，包含了考研课程、考研专业、考研注册、考研院校和高校教师模块，还包含系统自带的用户管理、部门管理、角色管理、菜单管理、日志管理、数据字典管理、文件管理、图表展示等基... [详细]
赞
踩
article
PCIe传输速率和可用带宽（吞吐量）计算_pcie3.0速率
参考：https://baike.baidu.com/item/pcie/2167538?fr=aladdinhttp://blog.csdn.net/zenglichuanjia/article/details/47297845http:... [详细]
赞
踩
article
【PCIe 5.0 - 100】SR-IOV【1】_pcie sr-iov
PCIe5.0SR-IOV与MR-IOV_pciesr-iovpciesr-iov本文将从PCIe角度讲SR-IOV。PCIe系列SR-IOV导航：【PCIe5.0-100】SR-IOV【1】【PCIe5.0-101】SR-IOV【2】【P... [详细]
赞
踩

8.大数据架构详解：从数据获取到深度学习 --- 机器学习和数据挖掘_具有数据挖掘的大数据架构

一文让你弄懂人工智能深度学习是怎么回事

svn回退特定版本的提交_tortoise svn如何从之前某个版本提交更新

超级详细 JAVA 对接 ChatGPT 教程，实现自己的AI对话小助手_chatgpt4 搭建 java

人工智能入门书单（附PDF链接）_人工智能极简编程入门pdf

【JAVA swagger】解决No mapping for GET /swagger-ui.html报错_no mapping for get /swagger-ui/index.html

为什么是manjaro_manjarovsarmbian

microSD EXPRESS - 用于移动设备的最快存储卡_micro sd card支持sd express

国产9个chatGPT免费网址总结_免费节点

基于WDF的PCI/PCIe接口卡Windows驱动程序（5）-如何为硬件移植驱动程序

Cesium 3dtiles详解（2）-b3dm_3dtiles batchid是什么

Pygame下载和安装_pygame库下载

人形机器人专题：准直驱执行器深度：人形机器人执行器技术的前沿

安大计算机考研专硕改数一英一了,What？这些个专业改考数一英一了！

机械键盘连击怎么处理_预热双十一！2020年电脑外设键盘怎么选？小白晋升老司机选择机械键盘的详细技巧，闭坑选购机械键盘指南...

大规模数据处理在深度学习中如何应用_深度学习在大数据中的应用

【深度学习】S2 数学基础 P5 自动微分

车载摄像头技术、市场、发展前景_gmsl摄像机是替代什么技术

【开源】SpringBoot框架开发考研专业课程管理系统

PCIe传输速率和可用带宽（吞吐量）计算_pcie3.0速率

【PCIe 5.0 - 100】SR-IOV【1】_pcie sr-iov