赞
踩
前言:
随着企业的落地实践越来越多,智能运维也从开始时的“点状”场景建设,升级为“体系求变”,即从建设初始就思考总体的AIOps建设体系,选择适合自己的点进入,在数年内建设完整的智能运维体系。
我们非常荣幸能邀请到两位金融行业的客户莅临现场,为我们分享金融行业智能运维建设实践的经验。
1.一站式管理:建设运维大数据平台,实现对应用日志、系统日志、应用日志的采集、解析、存储、转储的一站式生命周期管理;
2.一键查询:运维场景化的日志内容搜索,包括数据总览、应用检索、日志分类检索、日志一键查询;
3.辅助排障:通过规则化与智能算法相结合,对根据历史数据学习,进行日志异常检测判断,辅助排障;
4.随时查询:满足合规审计要求,定期自动对日志数据脱敏、备份,并在需要使用的时候能够随时恢复数据进行查询;
5.根因定位与故障预警:通过KPI异常检测、应用关联定位、日志交易串联、日志异常定位等智能化算法,实现辅助问题根因定位和故障预警;
6.破除壁垒:打通各运维工具集间的数据壁垒,实现数据流通,打造综合运维分析平台;
“工欲善其事、必先利其器”,运维“监管控析”都离不开强有力的平台支撑,根据建设目标进行分层拆解,由大入小逐步建设。主要从以下几个方面入手。
1.平台:面向全业务系统搭建统一日志管理、监控、数据多维度分析的大数据运维管理平台。
2.应用:聚焦日志场景,对系统日志、交易日志、事件日志、性能日志等统一采集、精细化分析,最终形成场景化应用。
3.数据处理:经过路由层 -> 队列缓冲层 -> 流处理引擎三个阶段。首先,通过路由层直接接收采集客户端上送的数据,根据不同数据源对应的路由策略,转发给不同的消息队列,最后流处理引擎从消息队列直接拉取数据,处理成功并且持久化到数据库后,更新数据消费偏移量,确保了数据至少被处理一次,数据零丢失。
总之,以统一运维大数据平台建设为核心,实现场景化信息业务、智能化调度体系、可视化数据呈现,高度缩减运维人力投入,提高数据准确性和事件处理时效,全面提升人工产效。
A:从运营支撑侧而言,主要实现了以下目标
1.日志查询用时缩短
通过运维大数据平台快速查询的方式,实现跨日志、跨服务器、跨应用的日志查询。查询时间由原来的 10-30分钟缩短到1-5分钟以内。
2.交易串联加速排障
通过交易串联,将每笔交易所经过的节点耗时、请求耗时、响应耗时、链路耗时直接展示。能够迅速发现交易链路上的故障点,同时可直接关联日志查看系统报错。
B:从技术支撑方面来说,主要达到了以下效果
1.数据技术支撑
● 流批一体大数据处理核心,实现数据的全生命周期管理;
● 基于流批一体式处理的数据算法应用,依据算法判断辅助运维人员决策;
2.智能算法支撑
● 基于算法的告警降噪,让运维排障更具有针对性;
● 基于机器学习的算法应用,自适应数据的模型,自动调参。
更多运维思路和案例我们将持续更新,敬请期待~
关注我们,更新不迷路~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。