赞
踩
1. 熟悉大数据的市场与现状,在企业中的应用方向
2. 了解Hadoop的概念和生态圈等。
Hadoop是apache基金会提供的一套开源、可伸缩、可靠的用于分布式存储和计算的框架。
3. 掌握Linux基本命令和VI编辑器。
由林纳斯-托瓦斯在大学期间仿造Unix系统编写的一套免费的操作系统
常见的基础命令、vim文本编辑器、免密登录、 软件包管理
4. 掌握Hadoop的安装和常见错误分析。
5. 掌握MapReduce工作原理和编程模型,并能进行相应的开发。
Hadoop的分布式计算框架,将数据的计算分成了map和reduce两个部分;用于解决海量数据的计算问题。
6. 掌握Hive的安装、常见操作和清洗日志文件。
hive是基于Hadoop的数据仓库框架,提供了一种SQL方言,可以查询存储在HDFS上的数据;底层将SQL查询或插入转换为MR 的job程序在Hadoop集群上运行。
hive将数据组织成数据库表,通过数据库表来操作来为数据赋予结构。
7. 掌握Sqoop的概念、安装。
SQL-TO-HADOOP工具,允许用户将数据从结构化存储器MySQL抽取到Hadoop中,用于后续作进一步的处理,以供MR、hive来使用;也可以使用将数据从Hadoop、hive导出到结构化存储器,给其他的客户端:企业级开发的应用使用。
8. 掌握MySQL和HDFS的双向数据导入。
sqoop命令单独执行没有任何意义,需要使用sqoop提供的一系列的工具以供执行相应的操作
a. export Export an HDFS directory to a database table :将HDFS上的目录中的文件导出到数据库中
b. import Import a table from a database to HDFS:将数据库表的数据导入到HDFS指定的文件
9. 能运用Hadoop生态圈的多个组建进行简单的综合开发。
10. Zebra项目数据处理和展示。
电信运营网络基站:覆盖一定的区域,接收该区域内用户对互联网的访问,基站会将用户的访问转发到对应的服务器,并将服务器的响应传回给用户。但基站并不是仅仅是转发的功能,也会将用户的访问信息记录到全网日志中。
随着移动互联网的发展,大家可以很方便的通过手机、ipad或电脑等智能设备,通过连接基站访问网站,其访问信息会通过基站在网络中传递,并将用户的访问信息记录到全网日志中, 基站每天会记录大量的用户访问日志,我们通过对基站收集的用户上网数据进行分析,得到受欢迎的应用排行、网站表现力等。
因为每天基站记录的日志信息数据量非常巨大,并不能简单的通过单机的程序对该日志文件做处理,这也就成了我们说的海量数据,这个时候我们就需要借助大数据的分布式处理方式对日志文件做分析处理。
(请按专业实习时间或实习内容顺序进行陈述。要求500字(包括图表)以上。表格不够可加页)
(请按专以下条目进行陈述。要求1500字(包括图表)以上。表格不够可加页)
1.能够在工程实践、科技活动、实验设计、课程设计、毕业设计(论文)中应用数学、自然科学和专业工程基础解决复杂专业问题
2.能对所设计系统进行功能和性能测试,进行必要的方案改进
3.能够分析评价专业工程实践和复杂工程问题解决方案对社会、健康、安全、法律以及文化的影响,并理解应承担的责任.
4.理解并在工程实践中遵守工程职业道德规范
5.能理解个人与团队的相互作用关系,具有团队意识
6.能够就复杂工程问题进行有效的书面和口头表述,并能与他人进行有效沟通,包括撰写报告和设计文档、陈述发言、清晰表达或回应指令
(从专业角度对实践单位的工作提出改进建议)
应用欢迎度页面效果展示图:
图 4-1
在上图中通过选择日期和指标,点击查询按钮,就能查询到应用大类总流量前10名的饼形图,可以看出浏览下载的总流量是最高的,其次就是视频、即时通信。在即时通信上点击,还可以查看该应用大类下各应用小类的受欢迎度,见图4-2。
图 4-2
由上图可以看到,QQ、微信几乎占了大部分的即时通信总流量,也可以看出在15年6月左右,QQ用户仍然多于微信用户。
网站表现页面效果展示图:
图 4-3
在上图中通过选择日期和指标,点击查询按钮,就能查询到网站总流量前10名的柱形图,可以看出网址为www.icbc.com.cn(中国工商银行)的网站的总流量是最高的。在该网址柱形图上点击,还可以查看该网站一天内各小时的总流量数,见图4-4。因日志文件的数据都是同一个小时的,所以该图只有一个点。
图 4-4
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。