由 superadmin 于 2024/06/05, 11:08 最后修改
修改评论
上传新附件微信图片_20240603132303.png
Summary
Details
- Page properties
-
- 标题
-
... ... @@ -1,1 +1,0 @@ 1 -某网管中心IT集中运维咨询项目调研分析报告 - 父
-
... ... @@ -1,1 +1,0 @@ 1 -G 参考资料.ITIL实施项目资料.ITIL实施项目流程设计方案集.应急管理.WebHome - Content
-
... ... @@ -1,252 +1,0 @@ 1 -[[返回本章节索引>>url:https://www.itil4hub.cn/bin/view/G%20%E5%8F%82%E8%80%83%E8%B5%84%E6%96%99/ITIL%E5%AE%9E%E6%96%BD%E9%A1%B9%E7%9B%AE%E8%B5%84%E6%96%99/ITIL%E5%AE%9E%E6%96%BD%E9%A1%B9%E7%9B%AE%E6%B5%81%E7%A8%8B%E8%AE%BE%E8%AE%A1%E6%96%B9%E6%A1%88%E9%9B%86/%E5%BA%94%E6%80%A5%E7%AE%A1%E7%90%86/]] 阅读下一部分 2 - 3 - 4 -= **某网管中心IT集中运维咨询项目调研分析报告** = 5 - 6 - 7 -=== **应急管理—现状与问题** === 8 - 9 - 10 -==== **管理要求** ==== 11 - 12 - 13 -===== **集团的要求:**要有应急灾备方案,并定期演练 ===== 14 - 15 -**网管中心的要求:**各主要专业要制定容灾方案、演练计划、演练方案 16 - 17 -**上级领导要求:** 18 - 19 -如何快速应对手机阅读故障。保障硬件快速恢复是应急主要内容 20 - 21 -梳理现有应急场景 ,有针对性的采取应急措施 22 - 23 -应急要标准化、自动化,首先第一步应该是制度标准化,明确由谁来执行、各个环节的衔接 24 - 25 -应急预案要简洁实用,流程管理也应简化 26 - 27 -朝自动化应急、标准化启动、一键式平台努力 28 - 29 - 30 -==== **应急组织** ==== 31 - 32 - 33 -当前IT维护室应急组织架构、人员角色职责、应急流程尚未明确,应急管理制度缺失 34 - 35 -手机阅读与资源池是IT运维室重点应急对象 36 - 37 - 38 -==== **流程** ==== 39 - 40 - 41 -缺乏应急启用的具体条件约束 42 - 43 -紧急事件发生期间的检查点有待明确 44 - 45 -有紧急事件发生期间的升级过程,上级制度有相应要求,有待明确如何在应急过程中有效调动现场人员 在应急过程中,是否可通过远程接入来诊断故障、服务器的串口管理有待加强 46 - 47 -值守要求有待明确,譬如错峰上班、获取厂家支持的方式如通讯方式等 48 - 49 -目前手机阅读应急中的沟通方式和通讯方式尚未明确要求 50 - 51 - 52 -==== **应急技术** ==== 53 - 54 - 55 -有容灾应急措施; 56 - 57 -底层的存储设备级别容灾~-~--同机房、同城, 技术手段:复制、镜像, 58 - 59 -当前容灾分业务级别的容灾与 60 - 61 -主机级别的容灾 62 - 63 -手机阅读业务级的容灾已经实现 业务测容灾有工具和脚本,有 一键切换平台 64 - 65 - 66 -==== **演练(以最近一次演练为例)** ==== 67 - 68 - 69 -**演练内容:**存储容灾改成基于数据库的容灾 70 - 71 -**演练地点:XXX** 72 - 73 -**演练业务:**手机阅读业务 74 - 75 -**演练要求:** 由于主营业务长期跑在B,所以也要确保B能切换到A。 76 - 77 -**停业务->停DB->正向切换->反向切换 演练沟通方式:** 78 - 79 -演练中主要是通过skype 或者电话的方式 进行沟通 80 - 81 -**值守方式:**演练人员48小时值守 82 - 83 -(在演练准备、执行上基于经验已经摸索出了一套演练的方法,并予以实践,但未标准化、系统化,在一些关键环节上有待改进,如,应急决策条件与系统的预案支撑等) 84 - 85 - 86 -==== **应急备份** ==== 87 - 88 - 89 -**备份工作现状 正在筹备备份平台、目前有备份策略 备份优先级: ** 90 - 91 -1根据设备等级,设备级别比较高的优先考虑 92 - 93 -2辅助设备放后或者不予考虑 94 - 95 -**备份机制:** RPO,一周备份一次 , RTO,根据运维经验进行计算判断 (如,通过光纤备份的RTO=容量/恢复的最大速度) 96 - 97 -**备份过程:** 98 - 99 -1备份管理员跟业务接口人沟通是否要恢复,并确定能够恢复到什么时间点 (RPO); 100 - 101 -2业务接口人进行决策; 102 - 103 -3计划走变更流程,工程师按照变更方案操作; 104 - 105 -4数据恢复以后,业务接口人恢复业务。 106 - 107 -**备份操作步骤: ** 108 - 109 -启动小型机—>启动主机—>通过网络引导启动—>网络引导连接备份boot 110 - 111 -Server—>识别磁带—>从磁带读数据恢复到硬盘—>然后重启 112 - 113 -**备份恢复预案状态:** 114 - 115 -当前“预案”相当于官方技术操作文档 116 - 117 - 118 -==== **应急风险场景(业务角度)** ==== 119 - 120 - 121 -**手机阅读应急风险:**核心数据库风险较大,往年故障都出在这上面,备份切换要两个小时; 122 - 123 -应急难点应急决策; 124 - 125 -**智能网应急风险:**应急准备时间,决策机制,目前没有实际切换过,负荷一直比较高、切换成本较高; 126 - 127 -**资源池应急风险:**未知风险、现在应急预案和演练都是空白,目前支撑内容越来越多,双机可能会存在软件宕掉的风险,会直接影响业务 128 - 129 - 130 -==== **应急风险场景(技术角度)** ==== 131 - 132 - 133 -**主机应急风险:** 单块主机挂了;Cluster挂了;整个物理刀框挂了 双网卡都出现故障;虚拟分区出现故障等 134 - 135 -**数据库应急风险:** 136 - 137 -DB切换失败,如何人工干预以确保数据不丢 138 - 139 -RAC的单点故障(容灾机制失效了,业务在存活的节点无法承载,再次挂掉) 140 - 141 -HA双机切换失败(HA软件问题或者硬件未及时更新) 142 - 143 -**网络应急风险:** 144 - 145 -最担忧防火墙和路由器的出口应急 146 - 147 -网管资源池路由器可能存在单点故障 148 - 149 -光纤交换机异常,高可用之外有异常 SVC存储虚拟化引擎(非常关键 )紧急故障 150 - 151 -负载均衡故障;核心交换机故障;接入交换机故障 152 - 153 -虚拟交换机故障; 154 - 155 -**概率较低杀伤力大的风险:** 156 - 157 -各专业组目前未做备份 158 - 159 -**误操作的应急风险:**IT集中化,很多东西都批量操作,可能带来风险,如账号组如果有危险操作误删账号,可能会导致应急场景的出现 160 - 161 -(上述风险场景尚未开展风险场景的梳理) 162 - 163 - 164 -=== **应急管理—现状评估** === 165 - 166 - 167 -**冗余技术~-~-》应急管理基础-》应急管理优化-》应急管理平台化-》应急执行自动化** 168 - 169 - 170 -**[[image:微信图片_20240603132303.png]]** 171 - 172 - 173 -=== **应急管理—需求汇总** === 174 - 175 - 176 -**应急工作急迫须解决的问题** 177 - 178 -0应急管理制度缺失 179 - 180 -1业务的各种容灾环境下是否有演练流程、演练计划、应急保障方式、应集中沟通方式; 181 - 182 -2如何决定是否切换 183 - 184 -3每个实际情况的预案描述; 185 - 186 -4 手机阅读风险场景都有哪些; 187 - 188 -5如何通过工具实现应急 189 - 190 - 191 -|需求领域|需求详细说明 192 -| 应急组织|•应急组织设计 193 -|应急管理制度|•从制度层面,完善容灾应急方案、容灾演练方案、容灾演练计划 194 -|应急流程|•明确应急过程中如何启动应急、应集中内部如何沟通、后续工作如何展开 195 -|风险场景梳理|•对各专业领域风险场景的认知,并以此作为今后预案编写的依据 196 -|应急演练计划|•将IT运维室演练实践精华固化下来的演练计划 197 -|(% rowspan="3" %)应急预案|•符合实际情况的、可用的应急预案 198 -| 199 -|•备份恢复预案的制定 200 -|(% rowspan="3" %)自动化应急|•应急管理工具平台 201 -| 202 -|•应急自动执行 203 - 204 - 205 -=== **应急管理流程—目标及阶段性实现** === 206 - 207 - 208 -**冗余技术~-~-》应急管理基础-》应急管理优化-》应急管理平台化-》应急执行自动化** 209 - 210 - 211 -|阶段|目标描述 212 -|应急管理基础|“应急管理制度设计” : 初步设计 XX-XX 优化设计 XX-XX 管理确认 XX-XX 213 -| | 214 -| |.应急预案启动的条件讨论与设计;应急组织架构梳理;风险的界定与评价设计;应急预案管理设计;应急处置流程设计;应急信息通报要求设计;应急善后处理要求设计;应急保障要求设计;应急演练要求设计 215 -|第一阶段|“应急演练方案设计”:初步设计X年X月-X年X月 优化设计X年X月-X年X月 管理确认X年X月-X年X月 216 -| | 217 -|(X年X月-X年X月)|演练方案内容要素设计;演练信息发布流程梳理;演练准备工作梳理;演练流程梳理;演练后保障措施梳理 218 -| |“应急风险场景梳理”:初步设计X年X月-X年X月 优化设计X年X月-X年X月 管理确认X年X月-X年X月 219 -| | 220 -| |围绕手机阅读,基于现有运维人员的维护经验、顾问指导,收集、梳理手机阅读业务现有风险场景 221 -| |“应急预案制定” 初步设计X年X月-X年X月 优化设计X年X月-X年X月 管理确认 X年X月-X年X月 222 -| | 223 -| |针对主要应急场景建立1-2个预案。预案内容要素包括:风险分析;应急预案启动条件;应急组织成员;应急时长;应急处置流程;故障排查表;信息发布流程;应急处置步骤;关联影响;善后处理措施 224 -|应急管理优化|“继续完善场景与预案” 225 -| | 226 -| |继续完善手机阅读应急场景设计、预案编写 227 -|第二阶段| 228 -| |“演练验证与优化”: 229 -|(X年X月-X年X月)| 230 -| |通过应急演练检验流程设计,并据此寻找改进点 231 -| |“经验拓展”: 232 -| | 233 -| |通过应急演练检验流程设计,并据此寻找改进点基于手机阅读的风险场景梳理、预案制定经验,将其拓展到资源池应急管理中 234 - 235 -|应急管理平台化|“经验拓展”: 236 -| | 237 -| |通过应急演练检验流程设计,并据此寻找改进点基于手机阅读的风险场景梳理、预案制定经验,将其拓展到智能网应急管理中 238 -|第三阶段| 239 -| | 240 -|(X年X月-X年X月)|“应急管理平台建设”: 241 -| | 242 -| |应急管理平台建设,将应急流程固化,应急操作标准化于工具之中,提升沟通效率和执行效率 243 -|应急执行自动化|“应急自动化建设”: 244 -| | 245 -| |在应急流程与操作标准化、固化基础上,实现应急脚本自动执行 246 -|第四阶段| 247 -| | 248 -|(X年X月-X年X月)|“应急改进”: 249 -| | 250 -| |在上述阶段基础之上,继续完善应急管理制度、应急方案、预案、与管理工具优化 251 - 252 -