一句IT业内人人皆知的“行规”道出了IT运维的不易和重要性近年来,作为IT软硬件环境、网络、应用系统等安全、高效、稳定运行的保障,IT运维的方式也在逐渐进化随着我国新基建建设步伐加速,各行各业都在加快数字化转型,数字经济规模持续扩大,云计算、人工智能、5G、物联网等信息技术应用日益普及,企业IT基础架构云化情况增多、数据量爆炸性增长,传统的IT运维方式已经无法满足数字时代的企业发展需求从最开始的人工运维到流程化、标准化运维,再到自动化、平台化运维,IT运维正在向智能化演进7月9日下午,七牛云在上海举办新产品发布会,推出了全新平台Pandora智能服务分析(Pandora Intelligent Service Analysis,简称“PISA”)这一新平台基于七牛云多年构建的数据能力,展现出智能运维领域的核心竞争力,可帮助企业IT运维部门智能化改造,实现提前预警、简化运维流程以及控制成本等 化解运维难题,七牛云打造全新平台智能运维,即AIOps著名IT咨询公司Gartner认为:AIOps平台将大数据分析技术与机器学习功能相结合,主要对数字化转型过程中IT系统不断产生的数据量、数据类型进行采集和分析,助力IT运维该平台能够同时使用多个数据源、数据采集方法、数据分析技术但是,智能运维在企业中落地并非易事,它对数据平台搭建、数据采集与传输、数据汇聚、存储与建模、数据计算、AI 体系化、场景与工程化融合等方面都提出了极高的要求,需要更专业的、更高质量标准的运维平台可用于智能运维管理的七牛云机器数据分析平台Pandora能实现数据的全生命周期智能管理,适用于运维监控、业务运营分析、安全事态分析、智能网联数据分析等各种场景自面世以来,已广泛于应用金融、汽车、运营商、智能制造、互联网等行业中,帮助企业探索数据,挖掘价值而为了解决监控工具各自为政,告警繁多无从分析,突发故障疲于应付,故障影响无从分析等难题,七牛云基于pandora平台推出全新应用:PISA,即Pandora智能服务分析(Pandora Intelligent Service Analysis),可基于用户业务视角的服务洞察、完整的端到端监控,快速发现问题,分析根源“全快未变”,PISA让运维更智能据介绍, PISA具有“全、快、未、变”四大特点其一,全:PISA可以基于业务角度,绘制业务流程与拓扑,对指标进行全面、统一的梳理和监控让运维从IT视角变为业务视角,指标直接关联业务服务健康度,通过查看服务健康状况的自定义可视化工具,呈现丰富的业务拓扑流程图,实现业务全貌监控,对故障给业务带来的影响能够一目了然可以降低业务损失,规避业务风险,有效支援业务开展,提升业务价值其二,快:快速定位故障和根因挖掘可以有效缩短平均修复时间多KPI分析工具可以将任何相关联的KPI放在根因挖掘面板中进行分析通过多指标关联分析面板,查看在不同时间点上各个KPI的变化情况,可智能定位高贡献度异常KPI,层层下钻快速进行故障定位,帮助运维人员更快分析问题、排查问题,修复故障其三,未:基于Pandora平台强大的智能数据能力,用机械学习助力快速查找潜在异常,通过动态阈值、异常检测等算法学习数据模式,帮助运维人员在海量数据中自动检测,寻找潜在的未知异常,提前发现问题,进行故障排查,争取处理问题的时间窗口,可以帮助IT运维“治未病”,减少运维成本其四,变:服务拓扑视图可以展示整体业务健康情况,服务异常与影响范围一目了然让运维从被动寻找问题原因,变成主动发现问题,并预防问题发生,让运维部门从成本中心变成利润中心和创新中心支持海量数据由于Pandora具有强大的采集、解析与计算能力,能集成所有数据,PISA可以支持海量数据下的实时KPI异常检测,并将运维数据KPI分为以下三类:1、Metrics 指标性统计:包括服务的 TBS 的正确率、成功率、流量等,是常见的应用单个指标,Metrics 单指标分析2、Tracing 分布式追踪:这里是指一次请求的范围,也就是我们从浏览器或者手机端发起任何的一次业务调用,从浏览商品到最后下定单、支付、物流、最后交到我们的手上,需要去追踪这个轨迹3、Logging 日志记录:指程序在执行的过程中间发生的日志,包含报错信息、堆栈信息等详细日志内容最佳实践:PISA在银行如何应用PISA的典型应用场景之一就是银行核心系统在对银行核心系统服务模型梳理时,要将IT指标和业务指标分层设计并建立依赖关系;建立覆盖行内核心业务的健康度模型,并通过工作台统一管理业务与IT,实时呈现业务和IT状态,快速排查、分析与定位问题故障过去没有服务分析器时,问题的处理方式往往比较被动:1、客户电话反馈网上银行登录遇到问题2、客服系统核实确认后建立服务工单交给IT进行问题排查3、IT进行长时间的问题排查找到原因后反馈结果4、事情已经发生,用户体验差如今,PISA可以主动规避风险,快速处理问题:1、IT收到网上银行预测未来30min服务降级的预警2、通过业务交易健康服务分析器发现目前网上银行服务处于低危状态,查看其kpi发现都处于正常状态同时注意到下层的核心系统已经处于高危状态3、点击核心系统,查看所有KPI发现cpu使用率已经处于严重状态,再次点击查看所有实体的详情,发现服务器1的cpu即将占满4、进一步查看日志详情,查找cpu飙升具体原因5、立即修复故障,避免事故发生在服务故障预测方面,对于银行的每一个服务,PISA都可以建立所有历史的KPI与未来的服务健康分数之间的模型,用于预测未来的服务健康分数,提前识别潜在的风险并进行风险规避通过KPI异常检测,可以准确查找出异常在基于单个KPI的异常检测中, 例如:银行的交易量呈现一定的周期性,在早上 9:00-11:00,下午1:00-3:00会出现波峰,如果设置固定阈值,会出现误报漏报的情况,而动态阈值能够更加准确进行异常检测在基于实体的异常检测中,例如:银行的吞吐量在负载均衡的几台机器上会呈现出相似性,如果某台机器突然出现与其他机器明显不同的情况,就表示负载均衡可能出现异常,或者某台服务器上的服务异常这样可以减少运维人员查找故障的时间而KPI面板分析可以帮助运维人员快速定位故障原因自银联成立以来,跨行交易的成功率每年都在提高,已经接近99%但是银联每天的交易量超过1000万笔,每天还是会发生大量的跨行交易失败情况,尤其在那些信息管理水平尚不成熟的银行中,这种情况更多通过多KPI关联分析故障,可以发现:每天0点、6点、23点半的时候存在一定的交易量,但是交易成功率显著降低,说明在这些时间段内用户交易在大概率上都会失败,影响用户体验并且注意到,在这三个时间点,银行会做数据库重启、对账和日切的操作于是银行快速采取了补救措施: 对核心数据库进行升级,解决数据库重启的问题;对系统进行优化,缩短每日日切处理时间,改进凌晨对帐影响联机交易的问题PISA强势入局,IT运维市场重塑格局当前,IT运维管理软件处于软件市场中规模最大的刚需赛道之一,且处于快速上升的通道中IT运维管理市场孕育着巨大的变化和发展机会有研究机构统计,中国IT运维管理软件的潜在市场空间已超过千亿元而数据对于运维管理的重要性毋庸置疑此次发布的Pandora智能服务分析平台--PISA拥有七牛云多年积累构建的数据能力的核心堡垒作为国内领先的“云+数据”服务提供商,七牛云一直致力于以数据科技全面驱动数字化未来,赋能各行各业全面进入数据时代七牛云基于领先的云存储能力建立了统一的异构数据湖,打造了完备的视频云服务闭环,并创建了简洁开放的机器数据处理平台,帮助客户用科技手段降低成本、提升效能可以预见,PISA或将重塑智能运维领域格局
(图片来源网络,侵删)
0 评论