赞
踩
2.2 FitData特点
2.3 FitData主要功能
FitData是基于开源Hadoop开发的企业级大数据产品,提供PB级数据的采集、存储和处理能力,支持数据加载、查询、分析、挖掘等功能。
2.3.1 节点批量自动部署
通过以Web管理,以图形界面的方式实现大数据平台节点批量自动部署,只需添加主机名(或者IP地址)即可实现将节点服务器添加到集群中,截图如下:
图 向集群中添加节点
2.3.2 节点动态管理
通过web管理实现节点的动态添加、删除,当存储空间或者计算资源不足时,支持向集群中添加同等配置的服务器,实现大数据平台在线动态扩容,而不需要停机处理,不影响平台正常运行。
大数据平台以Web图形界面实现Hadoop集群监控,包括大数据平台的硬件资源、软件资源、数据资源的监控,以及整个Hadoop集群的工作负载。主要包括以下几个方面:
2.3.3 服务组件状态监控
通过管理平台可以看到所有目前已安装的服务组件的健康状况。
图 服务组件运行状况
2.3.4 计算资源负载监控
通过管理平台可以实时看到整个平台的资源负载情况,包括集群的CPU、集群磁盘IO、集群网络IO、HDFS IO,如下图所示:
图 计算资源监控
2.3.5 多任务实时监控
通过对集群运行任务的实时监测,并根据任务优先级和耗时不同对任务进行动态调度,减少出现大量任务等待和重要任务无法及时完成的可能,可以使Hadoop集群的运行变得更加高效合理。
(1)、系统根据各队列资源的最小值分配集群资源,这样可以按照需求对各任务队列获取的集群资源进行分配,而且不会出现集群资源的闲置浪费。
(2)、可以实现对各任务队列获取的集群资源大小实时动态调整,及时保证高优先级任务所在队列获得更多的集群资源。
(3)、可以实现在某个任务队列出现空闲时,将该任务队列获取的集群资源自动分配给其他繁忙的任务队列,以使得集群资源利用最大化。
2.3.6 磁盘性能监控
对集群机器的硬盘进行监控,如下图所示,详细的展示出磁盘IO的利用率,读写速度,磁盘的等待时间。
图:磁盘性能监控
2.3.7 故障快速定位
大数据平台具备完整的告警监控和故障快速定位能力。能够将计算框架的每个作业进度、状态、资源利用情况进行监控,并通过可视化图形界面进行展示。
当大数据平台出现异常情况时,平台能够通过监控系统,对服务器节点宕机、集群异常、安全异常等异常事件进行预警、报警,并通过、短信报警手段进行告警通知。提供预制的恢复规则和安全规则,对集群异常进行自动修复、自动限制非安全行为的操作。
大数据平台能够通过对告警信息的分析,快速定位平台部出现故障的节点,对于因故障无法继续提供服务器的节点进行标记,将平台的作业任务自动分配到其他的节点上运行,同时,大数据平台采用分布式体系结构及无单点故障设计,平台任何节点的宕机都不会影响平台的稳定运行和业务的正常使用。待故障节点恢复正常后,再将该节点纳入平台的资源中,将作业任务分配到恢复后的节点上运行。
2.3.8 日常运维监控
大数据综合平台提供完整的日常运维监控的服务能力,针对从上层应用平台到底层基础平台的各个功能模块和组件均提供有监控能力,能够分析系统的运行日志和用户日志,并且能够将监控数据通过文件接口或webservice接口的方式汇总到平台管理运维模块的监控管理界面中进行统一呈现和管理使用。系统能够根据监控到的数据进行分析判断,对异常的数据触发告警,在前台界面提醒,直至出发通知和处理等进一步动作。
平台的监控围涵盖有:
平台管理资源的使用与分配
服务器视图:提供针对各服务器和存储等设备的资源使用情况的实时查看,包括当前设备的CPU负荷,存占用情况,存储空间使用情况,网络带宽占用情况、设备运行状态等。管理员能够根据监控信息在管理平台上有效调度分配系统资源。其中集群的监控如下图所示:
针对服务器的监控如下图所示:
服务视图:提供系统中各服务资源使用情况的实时查看,包括连接数、当前作业数,I/O情况,运行状态等。
监控系统的运行情况
系统异常告警与处理
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
https://bbs.csdn.net/topics/618545628)**
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。