赞
踩
目录
第17章 大数据:Hadoop、Spark、NoSQL和IoT
• 学习编程基础,包括处理数据结构。
• 能够通过创建算法解决问题。
• 处理过程化、函数式和面向对象编程。
• 接受计算和统计思维的综合性呈现,包括通过模拟探索概念。
• 使用开发环境(我们使用IPython和Jupyter Notebooks)。
• 在每个课程中通过实际案例研究和项目处理真实世界的数据。
• 获取、探索和转换(整理)数据以进行分析。
• 创建静态、动态和交互式数据可视化。
• 传达可重复的结果。
• 使用现有软件和基于云的工具。
• 使用统计和机器学习模型。
• 使用高性能工具(Hadoop、Spark、MapReduce和NoSQL)。
• 关注数据伦理、安全、隐私、可重复性和透明度问题。
介绍了为Python编程、大数据、人工智能和基于云的案例研究奠定基础的概念以及如何使用IPython和Jupyter Notebooks进行测试的内容 。
第一课 为什么选择python
1. 简单易学:Python是一种相对简单易学的编程语言,其语法清晰简洁,容易上手。这使得初学者能够迅速入门并开始编写大数据应用程序。
2. 强大的生态系统:Python拥有庞大而活跃的开源生态系统,有大量的第三方库和工具可供选择。在大数据领域,像Pandas、NumPy、SciPy和Scikit-learn等库提供了广泛的数据处理、分析和机器学习功能。此外,Python还有一些专门用于大数据处理的库,如PySpark、Dask和Koalas。
3. 大数据框架支持:Python是许多大数据框架的首选语言之一。例如,Apache Hadoop生态系统中的工具(如Hadoop、Spark和Hive)提供了与Python的良好集成。这意味着您可以使用Python编写MapReduce作业、Spark应用程序和Hive查询等。
4. 社区支持:Python拥有一个庞大且活跃的社区,您可以从中获取帮助、分享经验并找到解决方案。社区提供了大量的教程、文档和示例代码,使您能够更快地解决问题和开发大数据应用程序。
5. 可读性和可维护性:Python以其优雅的语法和可读性著称,这使得代码易于编写、阅读和维护。对于大规模的数据处理和分析任务,这一点非常重要,因为它使团队成员能够共同协作,并能够快速理解和修改代码。
参看编程语言流行指数https://pypl.github.io/PYPL.html
第二课 硬件和软件
1、摩尔定律
每年,你可能预估大多数产品和服务的价格都会上涨。然而在计算机和通信领域,特别是关于支持这些技术的硬件方面,则出现了相反的情况。多年来,硬件成本一直在快速下降。每年或每两年,计算机的容量都会以低廉的价格大致翻倍。这一非凡的趋势通常被称为摩尔定律 。
摩尔定律及其相关观察特别适用于以下几个方面:
• 计算机用于程序的内存容量。
• 用于长时间存储程序和数据的辅助存储器(例如固态硬盘存储器)的容量。
• 处理器速度 - 执行程序(即完成工作)的速度。
2、计算机组织
输入单元:这个“接收”部分从输入设备获取信息(数据和计算机程序)并将其提供给其他部分进行处理。
输出单元:这个“发货”部分将计算机处理过的信息放到各种输出设备上,以便在计算机外部使用。
内存单元:这个快速访问但相对低容量的“仓库”单元保留了通过输入单元输入的信息,使其在需要时能够立即进行处理。
算术逻辑单元(ALU):这个“制造”部分执行计算,如加、减、乘和除法。
中央处理器(CPU):这个“管理”部分协调并监督其他部分的操作。
辅助存储器:这是长期的、高容量的“仓库”部分。
第三课 数据层级
数据层次结构是计算机处理数据的一个体系,随着我们从最简单的数据项(称为“比特”)向更丰富的数据项(例如字符和字段)发展,其结构变得越来越大且更为复杂。以下图示展示了数据层次结构的部分内容:
数据库
数据库是为了方便访问和操作而组织的数据集合。最流行的模型是关系数据库,其中数据存储在简单的表格中。一个表格包括记录和字段。例如,一个学生表格可能包括名字、姓氏、专业、年级、学生 ID 号和平均绩点等字段。每个学生的数据是一条记录,每条记录中的各个信息都是字段。您可以基于它与多个表格或数据库的关系搜索、排序和操作数据。例如,一所大学可能会将学生数据库的数据与课程数据库、校内住房数据库、餐饮计划数据库等的数据结合起来使用。
大数据
下表展示了一些常见的字节测量单位:
单位 | 含义 |
---|---|
KB | 千字节(10^3 字节) |
MB |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。