(图片来源网络,侵删)
稳定性流程机制0、当前矛盾:过分依赖一个人,不能面面俱到摒弃一人独裁,一切权力归Ower团结能团结的人,共同成长想做的事,说得出,做得到日益增长的需求无法腾出精力落实稳定性在日常迭代过程中去落实,别忽悠,办实事从被动到主动,不推迟,不隐藏,用时间换空间不是做作样子,必须是谁做的好,谁做得差一切指标从业务出发,有落地,有进度稳定性成一句“空话”群里消息必回应全盘监督去落实周会复盘有进度一、建设前提:对事情必须有主次对结果必须有跟进线上问题我必须知道强化服务Ower意识二、建设目标:公司级别核心服务最低要求无P级别故障部门级别核心服务减少线上故障发生缩短线上故障时长5分钟问题告警15分钟问题响应20分钟问题止血三、组织保障: APPIDOwer负责人稳定性OneCall稳定性Backup备注四、指导方向:接入基础告警指标 见文档钩子sdk接入 当前缺失&接入进度 基础指标接入情况配置基础告警通知 配置指标告警&进度基础通用告警配置配置业务指标大盘 Ops核心业务指标大盘 保险业务指标大盘 收件箱核心指标大盘 综合运营组checklist大盘飞书通知弃用邮件 异常告警必须接入Exception 业务告警重要核心环节必须接入 接入进度稳定-[20210624]业务接入飞书通知 消息必须有效体现高价值,能通过消息快速定位问题五、运行机制:1、各服务Ower资源保障基础:以服务Ower为基础,保持20%的精力和时间投入稳定性中;Ower直接向小组负责人汇报,稳定性做为长期项目建设;团队稳定性建设不是个人事情,必须全员参与;2、稳定性负责人Leader职责:a、负责稳定性建设流程机制SOP的落地和结果check;b、负责整个团队讨论决策的稳定性工具建设;c、团队公共稳定性事项(公司专项+团队专项)推进落地;d、团队内部稳定性优化专项落地;3、稳定性周会制度:a、每周五下午5:30点稳定性周会;b、参会人员服务Ower所有人员;c、会议主题:流程机制SOP推进落地情况;团队公共稳定性事项落地情况;团队内部稳定性优化专项落地情况;本周线上故障情况统计及分析;4、稳定性小组周报:a、周报模板参考:小组稳定性周会b、每周五周下午5点之前完成周报状态六、流程机制:1、整体流程机制:2、减少线上故障数量:通过前期的预防措施比如技术方案、单元测试、代码CR、发布方案等不同环节的卡点以及其他的一些专项治理将潜在风险规避。具体细节待完善 TODO3、缩短线上故障时长:七、核心事项(流程机制卡点及结果check) 序号落地阶段具体落地事项执行人检查人参考模板备注八、线上故障 故障发生时间故障原因故障处理人故障复盘报告处理时长备注九、事项说明:1、事前预防:2、事中应急:3、事后复盘:4、日常保障:
0 评论