(图片来源网络,侵删)
来源:2023第七届农村中小金融机构科技创新优秀案例评选获奖单位:河南农信荣获奖项:运维管理创新优秀案例一、项目背景、目标及建设内容1.项目背景为加强生产系统运行保障,省联社2015年建设IT综合运维管理系统项目,实现了服务台管理、工单管理等方面的需求,但是随着运维管理技术的进步,特别严监管趋势下,现有的运维管理平台已不适应新形势下运维管理需要,运维保障能力短板日益凸显。当前系统已面临系统性能降低,运维模式的改变需定制新的流程,亟需开展ITSM工具的持续优化改造,以对业务起到更好的支撑作用。根据河南省农村信用社“十四五”时期发展建设规划,结合监管部门有关运维管理流程、权限的监管要求,本次采购目标为建设一体化的运维管理平台,整合现有运维系统,补齐运维管理短板,规范运维管理全流程,开展能力提升咨询和实施服务,规划自动化、智能化的运维管理体系,实现运维管理一体化、标准化和线上化。全面提升河南农信的运维管理能力和水平,确保信息系统的安全、稳定、持续运行。2.项目目标信息科技十四五规划对现有运维平台的处置评估建议为“新建更换”,为此拟在统筹规划基础上,按照ITSS服务能力标准以及国标要求,围绕河南农信管理和资源特点,采用自顶而下的方式,优先开展新一代运维管理平台建设,实现如下三个目标:(一)引入专业运维管理咨询服务,构建适应我社运维管理实际需要的运维服务能力体系,持续进行管理、组织和工具优化,力争利用五年时间,将我社运维管理能力由现在的发展级建设提升为卓越级。建设较为系统的运维服务能力管理,实现运维管理一体化、标准化和线上化,全面提升河南农信的运维管理能力和水平,确保信息系统的安全、稳定、持续运行。(二)替换现有运维管理平台,全面整合运维管理工具和监控数据,优化运维管理报表;实现运维管理流程全覆盖,实现运维全流程的线上化闭环控制管理能力,利用数字智能技术全面提升运维保障的可视、可控、可管能力;构建协同、社交、移动、智能的运维管理能力,支撑并适应省联社数字化转型背景下的运维管理需要;加快实现运维平台的全国产化替代。(三)构建科学的运维工作KPI考核体系,实现省-市-县运维管理一体化和规范化管理的目标,并以标准化、数字化和多维度生产运行质量量化指标来促进运维条线与开发条线的融合发展。3.项目建设内容运维管理平台项目建设,包括:ITSS标准化咨询及辅助认证服务、运维管理平台实施及运维服务。咨询部分要求参考ITSS标准和行业先进经验,重构运维管理体系,对我社运维管理制度进行修订完善;运维管理平台整体要做到流程合规、界面简洁、功能易用。(一)引入专业运维管理咨询服务,对照ITSS服务能力标准要求,围绕河南农信管理和资源特点,建设较为系统的运维服务能力管理,形成较为完善的人员、过程、技术和资源方面的管理制度,规范运维管理全流程,规划自动化、智能化的运维管理体系,实现运维管理一体化、标准化和线上化,达到ITSS成熟度三级及以上的能力要求;同时制定我社未来3-5年运维体系的建设规划及落地实施路线,全面提升河南农信的运维管理能力和水平,确保信息系统的安全、稳定、持续运行。(二)建设一体化的运维管理平台。一是通过运维门户建设全面整合运维管理工具和监控数据,优化大屏展示和运维管理报表;二是通过运维流程管理平台建设,形成覆盖省市县三级的设备管理、任务管理、容量管理、配置管理、事件管理、问题管理、工单管理、变更管理、发布管理、监控管理、服务目录和知识管理、效能管理的运维管理全流程线上化平台。从页面展示、流程设计、线上审批、报表统计等各个维度、多角度对平台进行一体化设计,并进行相关运维数据标准化制定,建成易使用、易维护、易拓展、易管理的综合运维服务管理框架;三是加强运维管理权限管控,将运维管理流程与机房门禁系统、堡垒机、云桌面、VPN等权限管理对接,同时与OA、金燕通等线上审批管理工具对接,加强我社生产系统的登录操作的线上化和移动化审批管控,把好信息系统安全访问的审批关口;(三)建设运维管理KPI指标体系,通过关键运维质量指标的自动采集、自动计算能力的建设,实现运维管理绩效考核。二、创新点我们认为,对于流程管理平台,灵活的流程设计与表单结构、多维度的SLA考核标准、完善的知识库管理、定时任务管控、排班管理等功能点,才是IT运维团队对于服务管理工具的实际需求。本次项目致力于打造一款能够更好的帮助我们在运维管理领域体现运维的价值、完成经验的推广、做好团队管理的运维工具,帮助运维部门共同实现业务诉求。运维管理平台是所有运维事务的起点,通过流程互通,打通全运维领域的业务场景,实时记录各场景的业务信息,以多维度的视角反馈运维的价值;通过合理的知识库管理进行运维经验的推广,以贴近用户实际的服务管理模块,更好的辅助完成运维事务管理与服务质量的提升。通过多功能套件完成日常运维、知识、排班、计划任务、服务质量的管理工作;以自定义流程引擎为依托,实现运维流程数字化,在保障标准流程(事件、请求、问题、变更)的基础上,将非标准流程平滑的转移到ITSM平台;灵活的表单设计规则,可以根据管理端的要求,自定义工单表单,实时进行调整;服务管理模块可以灵活的调整业务规则,自定义考核指标、SLA标准、排班表、服务时间、工单等级等,以模块化的方式更好的展示考核上的要求,帮助管理者与运维人员更直观的获取对应信息。(一)运维管理平台设计思想IT运维在向自动化、智能化、集中化转变,新一代运维平台的设计要符合这一变化趋势,经过长期积累和深入研讨,运维管理平台的设计思想遵循了以下原则:平台功能涵盖运维业务的各个领域,包括监、管、控、服、安全、大数据及人工智能等方面。从应用场景的视角来提供产品能力,以满足不同企业不同发展阶段的运维要求。以CMDB数据为核心,以便既能满足企业全域资源的统一管理,又能保障各技术域的数据关联。架构具有灵活的可扩展性,以满足不同规模、不同成熟度企业的运维要求。架构具有充分的开放性,以便快速实现与第三方系统对接。架构具有“热插拔”能力,以便在启停某一业务模块的时候不会影响其它业务模块的正常运行。平台具有统一门户、统一告警、统一资源、统一流程引擎,统一知识管理的能力,以符合集中管理的运维要求。平台设计考虑用户体验以及工程实施量,以便提升用户的易用性和缩减项目交付成本。(二)功能架构功能架构方面,平台采用微服务架构、容器底座,依托CMDB数据,并通过监控模板、指标自定义、通用流程编排引擎、业务管理等功能特性,提供了4A核心(Aggregation-全域融合、Application-oriented-应用视角、AIOps-AI-赋能、Agility-敏捷交付)能力,可以满足多机构、多租户、多张网、大容量等多种运维场景。具体的功能架构如图1所示:图1功能架构设计图从下往上,第一层是采集层,通过Agent和非Agent采集方式以及第三方系统的采集,可以对接端、网、云、安全等全域的管理对象。第二层是技术运维域,是指各个专业运维领域,包括基础架构管理、硬件监控、业务监控、动环管理、视频监控、无线管理等专业技术运维领域。第三层是公共组件域,是将具有公有属性的业务功能抽取出来形成公共模块,以供其它业务场景直接调用,避免重复开发和减少系统的冗余,包括:流程编排引擎、知识搜索引擎、知识图库、AI算法等功能模块。第四层是业务应用域,是按IT运维的业务特性和应用场景所划分出来的运维业务域,包括监控管理、资源管理、服务流程管理、自动化管理、智能分析几部分:监控平台具备全面、深入的监控能力,包括对网络、硬件、存储、基础软件、云平台、业务应用,以及视频、动环、无线等全域异构资源的监控。资源管理是运维管理平台的核心组件,主要管理运维对象(即资源)的相关信息,并为其它组件提供资源属性和关系等信息进行消费。服务流程组件主要涵盖运维工作中流程和工单相关的业务,通过流程工单,将运维人员的工作进行串联和记录,最终实现工作规范化,事务工单化。自动化运维管理包括网络自动化、服务器自动化、存储自动化、脚本管理自动化、应用交付自动化等功能,从运维操作的角度实现IT运维管理的自动化,真正提升IT部门的运维效率和用户满意度。智能分析组件主要包含日志采集分析、故障根因诊断定位、可用性、容量分析等功能,协助快速完成故障定位、业务运行诊断、系统扩缩容等日常运维工作,提升运维工作效率,为业务系统稳定、高效运行提供高质量的运维支撑。最上层是集中展示层,作为新一代运维平台的统一门户,为运维人员的日常运维工作提供统一入口,平台提供PC桌面、大屏及移动终端多种展示方式。(三)技术架构运维管理平台在技术架构设计方面,可以从展示层、业务层、处理层、运行层、采集层、资源层几个层面来看,如图2所示:图2 技术架构设计图展示层:是统一监控系统的集中展示门户层,是统一监控系统的入口,主要包括管理员视图、查看员视图、租户视图、大屏监控、桌面门户、场景化定制门户等,主要使用的技术栈包括Html5、Javascript、Css、Vue、SpringBoot等主流的web前端技术。业务层:为统一监控系统提供统一的运维业务服务,最上层是北向API接口,为展示层以及第三方系统提供统一的接口服务,API Gate是所有业务请求的统一入口,Cas Server为所有业务请求提供服务请求认证,以通过单点登录来实现对第三方系统的访问,RBAC角色权限管理模型为运维业务提供统一的功能级和数据级权限控制。下面就是业务功能服务,这些服务包括认证鉴权、组织机构及用户管理、操作日志、通知管理、告警管理、拓扑管理、日志管理、统计分析,以及机房设施监控、硬件设备监控、应用性能监控、业务监控、用户体验监控、服务流程管理、资源管理、服务器自动化、网络自动化等等。处理层:为上层业务服务提供支撑,包括查询、存储、计算、聚合、转换、清洗、抽取、过滤、加载等处理能力,处理层使用分布式集群技术,保证为业务层提供的服务具备高可用、高并发、高性能等特性,底层的技术栈包括关系数据库MySQL(存储配置属性和管理数据)、时序数据库Influx DB(存储各种指标数据,以满足对时序数据的高性能查询和分析需要)、Redis(以满足高速查询的缓存需要)、Elastic Search文档数据库(存储文档类数据,以满足大规模日志存储查询、全文检索等需求)、图数据库Orient DB(存储CI关联关系,以满足高性能查询的需求)、Kafka(以满足大规模消息的高速吞吐处理)、Zookeeper(以满足分布式集群协调的需求)、SpingCloud、Activiti(作为流程引擎,以满足服务流程管理以及自动化操作的流程编排)等等。运行层:是统一监控系统部署和运行的基础,H3Linux为统一监控系统提供操作系统资源,上层的展示层、业务层、处理层服务都是以Docker容器的方式封装隔离,通过Kubernetes进行编排和管理,然后通过Matrix图形界面系统进行统一的集群安装部署,并提供自监控、备份、软件安装、卸载等功能。采集层:支持Agent和非Agent方式进行数据采集,通过SNMP、SSH、Telnet、FTP、sFTP、WMI、IPMI、NetConf、NetFlow、NetStream、JDBC、Restful、Soap、SDK、JMX、Socket、SMI-S等各种协议实现对各类资源(如机房动环、数据库、中间件、应用等)的性能、状态、配置属性数据进行采集。资源层:包括企业IT运维管理的所有对象,包括机房动环设备、IT基础设施设备、云环境、数据库、中间件、及应用等等。(四)部署架构图3 部署架构设计图运维管理平台基于容器化部署平台,该平台基于Kubernetes集群对微服务进行部署、监控。部署平台以集群方式运行,如图3所示,集群组成为:Master节点:负责整个集群的资源管理及容器调度工作,需要三台物理服务器做集群。Worker节点:分担处理集群业务,用户可根据业务需要进行业务软件安装选择,并根据集群负载情况进行资源调配。在三个Master节点中,会自动选举一个节点作为主Master节点,主Master节点负责管理和监控集群中的所有节点,用户配置的北向业务虚IP会下发到主Master节点上。节点部署和IP规划要求如表1所示:基于微服务、容器化、集群架构,平台能很好支持系统扩容,当系统资源不足时,可增加主机节点到集群中,系统将迁移部分容器或服务到新的主机节点,完成扩容。(五)权限管理采用RBAC模型权限控制,支持功能授权和数据授权。通过资源和人员的归属机构映射,自动过滤数据和以树型结构的层次展示,以满足具有多层级组织结构企业的集中统一运维的要求。通过人员所属机构与资源所属机构关联,以做到每个机构的人员内只能处理相应机构的资源对象。在每个机构内,通过对资源进行分组,以做到同一机构内不同人员管理不同的资源对象通过功能权限和数据权限组合,即可实现分级分权管理。如需进行更加细化的权限划分,用户可按需自定义。通过将平台的功能菜单及操作按钮进行组合,以形成不同的权限。不同的权限包又可以组合为不同的角色。将不同的角色与不同的账户关联,即可控制不同人员操作不同的菜单及功能项。三、项目管理过程河南农信于2023年1月启动运维管理平台项目,9月完成运维管理咨询及设计、平台实施、用户测试和生产上线准备,将于10月在省行进行试运行。四、运营情况在运维管理平台建设中,我们从信息化能力出发,围绕河南农信管理和资源特点,制定了我社未来3-5年运维体系的建设规划及落地实施路线,构建IT运维蓝图。同时修订现行运维管理制度,完成服务流程设计和管理制度设计,建立运维KPI指标体系,形成相对成熟的研发运维一体化的工作模式。五、项目成效构建科学的运维工作 KPI 考核体系,实现了省-市-县运维管理一体化和规范化管理的目标,并以标准化、数字化和多维度生产运行质量量化指标来促进运维条线与开发条线的融合发展。灵活的流程设定与清晰的考核标准,辅助河南农信构建属于自己的运维流程体系,同时知识库的沉淀与使用,会更好地提升团队能力,减低用户因等待而带来的不满。(一)运维管理者规范管理,控制风险,流程打通,生命周期运转清晰,考核更加便利,快速响应管理侧的流程变化;合理考核,优化效能,考核标准全面清晰,标准变动更加规范,提升整体标准化;活用经验,提升效率,授人以渔,武装用户基础能力,降低等待不满,提升整体效率。(二)运维人员组织划分明确,工单流转记录时间线与对应人员清晰,降低流程运转噪音,提升管理效率;指标清晰透明,考核有理有据,知识浅显易用,提升处理效率;流程构建灵活,管理随时响应,无缝接入体系,提升客户体验。六、经验总结通过本次项目的建设,我们优化了现行的运维管理制度及流程,提高了整个信息化的运维效率、运维质量。接下来,我们将持续改进运维管理平台的建设,加强自动化运维成熟度,同时完善配置数据库建设,通过与自动发现与流程管控的联动,实时准确的反馈并同步更新配置信息,为运维平台提供更加准确可用的资源数据。更多金融科技案例和金融数据智能优秀解决方案,请登录数字金融创新知识服务平台-金科创新社案例库、选型库查看。
0 评论