From version < 8.1 >
edited by superadmin
on 2024/11/01, 21:15
To version < 13.1
edited by superadmin
on 2024/11/01, 21:20
<
Change comment: There is no comment for this version

Summary

Details

Icon Page properties
Title
... ... @@ -1,0 +1,1 @@
1 +27 某地铁信息化基础架构平台建设IT服务标准化管理咨询ITIL事件管理流程设计说明书
Parent
... ... @@ -1,0 +1,1 @@
1 +G 参考资料.ITIL实施项目资料.ITIL实施项目流程设计方案集.事件管理.WebHome
Content
... ... @@ -1,0 +1,859 @@
1 += **1. 目标** =
2 +
3 +事件管理流程的主要功能是尽快解决出现的事件,保持关键业务系统的稳定性,其目标包括:
4 +
5 +* 在成本允许的范围内尽快恢复IT服务
6 +** 快速响应用户请求(通过电话)
7 +** 用户在线获得帮助
8 +** 沟通事件解决的状态
9 +** 和客户确认事件的解决
10 +* 进行事件控制
11 +** 按规范记录事件
12 +** 就事件的优先级,影响度进行分类
13 +** 分析,诊断,必要时进行升级
14 +** 监视并结束事件
15 +** 进行定期服务流程回顾
16 +* 提供IT管理信息
17 +** 人力资源利用情况
18 +** 故障处理情况
19 +** 支持效率
20 +
21 +(% class="wikigeneratedid" %)
22 += =
23 +
24 +(% class="wikigeneratedid" %)
25 += =
26 +
27 += **2. 流程范围** =
28 +
29 +事件管理流程包括:
30 +
31 +* 企业用户申报的故障或咨询
32 +
33 +涉及的基础架构和业务系统包括:
34 +
35 +1. 包括以下基础架构--主机、存储、网络、PC、终端、打印机。
36 +1. 包括以下业务系统――(参考服务目录)。
37 +
38 +* 监控系统触发的告警事件
39 +* 日常运维过程中发现的所有故障
40 +
41 += **3. 流程主要内容** =
42 +
43 +事件管理流程主要活动包括以下几个方面:
44 +
45 +事件管理流程始于事件的接收和报告,结束于事件的解决。该流程包含下述主要内容:
46 +
47 +* 事件接受和记录
48 +
49 + 这个环节是事件管理流程的起点。所有通过用户交互或系统报告的IT 事件必须由此步骤开始。此步骤的目的是在事件发生时快速准确地发现,以协助事件的诊断和解决并通知相关人员。在此步骤中将会收集创建事件记录所需的信息。
50 +
51 +该环节的关键是信息的准确性和完整性。
52 +
53 +* 分类和在线支持
54 +
55 +事件可以是一个故障/告警/咨询,对于每个事件,需要确立优先级和分类。若没有现成的解决方案或临时解决措施,该事件将分配给合适的支持人员对此进行调查。
56 +
57 +该环节的关键是必要的问题库支持和正确的事件分派。
58 +
59 +* 调查和诊断
60 +
61 +若支持人员无法解决事件,可运用自身技能、问题库、诊断工具等进行更加深入的分析以找到恢复服务的临时措施,必要时可调用多名支持人员以寻求解决措施。
62 +
63 +* 解决和恢复
64 +
65 +支持人员实施事件的解决方案,书写解决方案,并将解决完毕的事件转回服务台,由服务台通知用户解决的结果,并得到用户的确认。
66 +
67 +* 结束事件
68 +
69 +当用户确认事件解决后,此时可结束该事件。
70 +
71 +* 事件升级
72 +
73 +当事件处理超过预期时限,将自动通知处理人员和相应管理层,以引起相关人员和管理人员的重视和参与。
74 +
75 +== ==
76 +
77 +== ==
78 +
79 += **4. 流程执行原则** =
80 +
81 +流程执行原则是流程实施的策略,它作用于各个流程活动,指导流程活动的正确执行。这些执行原则同时也协助流程设计,并作为流程执行的输入。若没有经过很好设计的流程执行原则,将会使流程既不能满足客户的期望,也不能满足服务实施的标准。
82 +
83 +事件管理流程的执行原则包含了以下7个方面:
84 +
85 +== ==
86 +
87 +== 4.1 常规原则 ==
88 +
89 +* 所有事件管理范围内发生的事件,都应该记录在IT服务管理平台中,记录的信息应足够详细,包括事件处理过程,详细的解决方案和相应的附件;
90 +* 所有IT支持人员对优先级为紧急和高的事件所采取的服务恢复行动,在比对其它行动的时候,将拥有优先处理级别;
91 +* 各支持组组长应该每周检查相关的事件记录,以确保事件记录的完整和合理;
92 +* 事件经理应该每月产生事件管理报表。对反复发生的事件和变通方法解决的事件,举行定期的事件管理会议对这些事件进行评估,决定是否发起问题单以从根本上解决某些事件;
93 +* 事件经理每半年对流程进行回顾,回顾内容包括流程关键衡量指标和流程执行效率,以改进事件管理流程。
94 +
95 +(% class="wikigeneratedid" %)
96 +== ==
97 +
98 +== 4.2 流程关联原则 ==
99 +
100 +* 和问题管理的关联
101 +** 对于根本原因未明、采用变通方法解决的事件,应该产生问题记录并建立关联,或者与现有的问题进行关联;
102 +** 远程员和二线支持在解决事件的过程中,可以通过问题记录查找相应的解决方案。
103 +* 和变更管理的关联
104 +** 事件处理过程中,如果需要对系统进行变更,必须按照变更管理的定义,提交变更申请单(变更单必须和事件单建立关联),变更完成后,继续事件单的处理。
105 +* 和服务请求管理的关联
106 +** 事件处理过程中,如果需要提出服务请求,必须按照服务请求管理的定义,提交服务请求申请单(请求单必须和事件单建立关联),请求完成后,继续事件单的处理。
107 +* 和配置管理的关联
108 +** 事件处理过程中,可以通过配置管理查询相关的配置项信息以及该配置项历史上发生的事件、问题或变更,来帮助故障的定位;
109 +** 事件处理过程中,如果可以将故障定位到某个配置项,则必须将事件单与该配置项关联。
110 +
111 +(% class="wikigeneratedid" %)
112 +== ==
113 +
114 +== 4.3 所有权原则 ==
115 +
116 +* 所有权原则用来确保每个事件在任何时段都有适当的人员负责,协调员和事件经理必须确保事件得到有效跟踪与解决,并统一由质控员负责对事件单进行验证后关闭。
117 +
118 +(% class="wikigeneratedid" %)
119 +== ==
120 +
121 +== 4.4 重分派原则 ==
122 +
123 +* 事件的重分派原则是确保事件在服务目标时段内处理和解决的重要因素。因此,应当尽量减少事件单重分派的几率,事件单的重分派次数不应该超过3次。
124 +** 协调员可以将事件单重新分配给远程员或其他二线支持人员;
125 +** 事件重分派时要求协调员进行重分派原因的沟通。
126 +
127 +(% class="wikigeneratedid" %)
128 +== ==
129 +
130 +== 4.5 重复事件原则 ==
131 +
132 +重复事件是指在一个较短时间段(通常是1小时内),由监控平台上报的同一个配置项上现象相同的事件;或者一人/多人报告的同一来源(系统、应用)现象相同的事件。当被报告的事件与某个已经创建且尚未解决的事件单相同,则该事件被认为是重复的。由于此时已创建的事件尚未解决,还没有采取修正措施来恢复服务,因此,新报告的事件被认为是原有事件单的重复事件单。在原有事件单获得解决时,所有的重复事件单也获得解决。
133 +
134 +* 重复的事件信息必须被标识,并且不计入事件流程的关键衡量指标;
135 +* 由远程员或二线支持人员负责标识重复事件。
136 +
137 +(% class="wikigeneratedid" %)
138 +== ==
139 +
140 +== 4.6 补单原则 ==
141 +
142 +* 紧急事件在处理完成后必须补录事件单,记录详细解决过程及方案;
143 +* 重大事件也要在处理完成后,总结回顾处理过程,在事件单补录详细的处理信息、解决方案及相关改进点。
144 +
145 +(% class="wikigeneratedid" %)
146 +== ==
147 +
148 +== 4.7 关闭原则 ==
149 +
150 +所有事件单必须由交互流程的质控员验证通过后关闭。
151 +
152 +* 事件处理人员在解决完成事件时,根据实际解决情况填写事件解决代码。由交互流程质控员负责和最终用户确认事件的关闭;
153 +** 由最终用户认可获得关闭的事件单的结束代码为“已完成”;
154 +** 已解决的事件单如果没有得到最终用户的认可,则首先关闭该事件单,结束代码修改为“未完成”,同时创建一个新的事件单重新分配到原处理人员继续处理。
155 +* 已关闭的事件单不允许重开。如果事件重复发生,则创建一个新的事件单;
156 +* 对于已解决事件单,如果在确认时如无法联系用户,由质控员判断并决定是否关闭交互并关闭该事件。
157 +
158 +(% class="wikigeneratedid" %)
159 +== ==
160 +
161 +== 4.8 升级原则 ==
162 +
163 +制定升级原则的目的是确保事件在规定的解决时限内能够及时通知相关技术人员和领导,引起更多的重视,提供合适的资源,从而快速找到解决事件的方案。
164 +
165 +* 优先级为紧急的事件,协调员应立即升级到事件经理,由事件经理再次确认,如果优先级的确为紧急,则通知相应的管理层,并由事件经理启动紧急事件处理流程;
166 +* 各支持人员应及时响应和处理分配到本组或自己的事件单,如果超出规定的响应时限和解决时限,系统应自动将事件信息通报相关人员,由协调员负责协调资源,并督促事件能够及时被响应和处理;
167 +* 远程员应及时将不能解决的事件升级到二线支持人员,若未及时升级,协调员应及时介入,负责协调升级处理;
168 +* 远程员和二线支持人员在必要时通知协调员,将事件升级为紧急事件;
169 +* 只有协调员和事件经理才能变更事件的优先级。
170 +
171 +== ==
172 +
173 +
174 += **5. 流程详述** =
175 +
176 +== 5.1 事件管理流程概要设计 ==
177 +
178 +(% style="text-align:center" %)
179 +[[image:1730466396820-943.png]]
180 +
181 +
182 +流程活动:
183 +
184 +|序号|活动|说明|输入|输出|负责部门|角色
185 +|8.2.1|分派事件单|所有事件单首先分派到协调员,由协调员判断给远程员或二线支持人员进行解决|交互/监控告警/日常运维升级的事件单|待办事件单|IT运维部|协调员
186 +|8.2.2|调查和诊断|(((
187 +1. 接受事件单后,首先要根据自身经验对事件单信息进行更新,包括事件描述、事件分类、紧急度、影响度等;
188 +1. 调查事件原因,查找相关的问题或变更,判断是否能独自解决故障;
189 +)))|待办事件单|更新的事件单信息|IT运维部|(((
190 +一线、
191 +
192 +二线支持
193 +)))
194 +|8.2.3|记录解决方案|(((
195 +1. 初步确定解决故障的方式
196 +1. 如果需要借助问题管理流程才能找到解决方案,则写明分析情况并转单给协调员判断是否新建问题单;
197 +1. 如果解决方案需要通过发起一个变更请求才能实施,则新建一个变更单转变更主管审批
198 +1. 如果解决方案需要通过发起一个服务请求才能实施,则新建一个服务请求单转请求主管审批
199 +1. 记录详细的解决方案;
200 +)))|更新的事件单|事件解决方案|IT运维部|(((
201 +一线、
202 +
203 +二线支持
204 +)))
205 +|8.2.4|实施解决方案|(((
206 +1. 实施解决方案
207 +1. 由一二线支持人员对用户故障进行远程或现场处理,如果是应用类故障,则初步尝试解决;
208 +1. 实施过程中如出现错误,需要判断是否转单给其他支持组处理;
209 +)))|事件解决方案|事件处理结果|IT运维部|(((
210 +一线、
211 +
212 +二线支持
213 +)))
214 +|8.2.5|关闭事件|支持人员确认解决故障后,更新解决方案,然后关闭事件单|事件处理结果|关闭的事件单|IT运维部|(((
215 +一线、
216 +
217 +二线支持
218 +)))
219 +
220 +(% class="wikigeneratedid" %)
221 +== ==
222 +
223 +== 5.2 分派事件单 ==
224 +
225 +
226 +(% style="text-align:center" %)
227 +[[image:1730466442850-906.png]]
228 +
229 +流程活动:
230 +
231 +|序号|活动|说明|输入|输出|负责部门|角色
232 +|8.2.1.1|初审事件信息|初审事件单的关键信息|交互/监控告警/日常运维升级的事件单|无|IT运维部|协调员
233 +|8.2.1.2|信息是否完整?|检查事件单信息是否足够|事件单信息|无|IT运维部|协调员
234 +|8.2.1.3|拒绝事件|如发现事件单信息不完整,可退回服务台完善。|事件单信息|拒绝事件单|IT运维部|协调员
235 +|8.2.1.4|分派事件|根据实际情况分派事件单给一线或二线处理|事件单信息|分派事件|IT运维部|协调员
236 +
237 +== 5.3 调查和诊断 ==
238 +
239 +
240 +(% style="text-align:center" %)
241 +[[image:1730466471229-405.png]]
242 +
243 +流程活动:
244 +
245 +|序号|(% style="width:188px" %)活动|(% style="width:680px" %)说明|(% style="width:133px" %)输入|(% style="width:151px" %)输出|(% style="width:102px" %)负责部门|(% style="width:185px" %)角色
246 +|8.2.2.1|(% style="width:188px" %)是否接受|(% style="width:680px" %)是否接受事件单的分派?|(% style="width:133px" %)待办事件单|(% style="width:151px" %)无|(% style="width:102px" %)IT运维部|(% style="width:185px" %)一线二线支持
247 +|8.2.2.2|(% style="width:188px" %)收集信息及调查原因|(% style="width:680px" %)收集事件的相关信息,检查事件单是否与其他问题单变更单有关联, |(% style="width:133px" %)事件单信息|(% style="width:151px" %)更新的事件单|(% style="width:102px" %)IT运维部|(% style="width:185px" %)一线二线支持
248 +|8.2.2.3|(% style="width:188px" %)由变更引起?|(% style="width:680px" %)判断是否与其他正在处理的变更单相关|(% style="width:133px" %)更新的事件单|(% style="width:151px" %)无|(% style="width:102px" %)IT运维部|(% style="width:185px" %)一线二线支持
249 +|8.2.2.4|(% style="width:188px" %)关联相关变更|(% style="width:680px" %)如果相关,需要把事件单与其关联|(% style="width:133px" %)事件单|(% style="width:151px" %)关联的变更单|(% style="width:102px" %)IT运维部|(% style="width:185px" %)一线二线支持
250 +|8.2.2.5|(% style="width:188px" %)与未决问题匹配?|(% style="width:680px" %)判断是否与其他正在处理的问题单相关|(% style="width:133px" %)更新的事件单|(% style="width:151px" %)无|(% style="width:102px" %)IT运维部|(% style="width:185px" %)一线二线支持
251 +|8.2.2.6|(% style="width:188px" %)关联相关问题|(% style="width:680px" %)如果相关,需要把事件单与其关联|(% style="width:133px" %)事件单|(% style="width:151px" %)关联的问题单|(% style="width:102px" %)IT运维部|(% style="width:185px" %)一线二线支持
252 +|8.2.2.7|(% style="width:188px" %)是否超时?|(% style="width:680px" %)系统会实时自动判断事件单在支持人员处理的过程中是否超时,如超时会分派给协调员处理|(% style="width:133px" %)更新的事件单|(% style="width:151px" %)协调员待办事件单|(% style="width:102px" %)IT运维部|(% style="width:185px" %)系统
253 +|8.2.2.8|(% style="width:188px" %)是否能自行解决?|(% style="width:680px" %)在充分调研后,尽快判断是否能自行解决事件,如不能处理需要转派回协调员|(% style="width:133px" %)更新的事件单|(% style="width:151px" %)接受或拒绝事件单|(% style="width:102px" %)IT运维部|(% style="width:185px" %)一线二线支持
254 +
255 +== 5.4 记录解决方案 ==
256 +
257 +
258 +(% style="text-align:center" %)
259 +[[image:1730466522660-947.png]]
260 +
261 +流程活动:
262 +
263 +|序号|活动|说明|输入|输出|负责部门|角色
264 +|8.2.3.1|确定解决事件的方式|确定用什么方式解决事件|更新的事件单|无|IT运维部|一线二线支持
265 +|8.2.3.2|借助问题管理?|判断是否要借助问题管理彻查原因|更新的事件单|无|IT运维部|一线二线支持
266 +|8.2.3.3|注明转问题单原因|如果认为需要通过问题管理才能彻底解决故障,可以注明原因,转回协调员安排升级问题|更新的事件单|转问题单原因|IT运维部|一线二线支持
267 +|8.2.3.4|发起变更?|判断是否要发起变更|更新的事件单|变更单|IT运维部|一线二线支持
268 +|8.2.3.5|发起请求?|判断是否要发起请求|更新的事件单|请求单|IT运维部|一线二线支持
269 +|8.2.3.6|记录解决方案|记录初步的故障解决方案|更新的事件单|解决方案|IT运维部|一线二线支持
270 +
271 +(% class="wikigeneratedid" %)
272 +== ==
273 +
274 +== 5.5 实施解决方案 ==
275 +
276 +
277 +(% style="text-align:center" %)
278 +[[image:1730466550951-594.png]]
279 +
280 +流程活动:
281 +
282 +|序号|活动|说明|输入|输出|负责部门|角色
283 +|8.2.4.1|是否有权实施?|判断是否有足够的权限独自实施解决方案|更新的事件单|无|IT运维部|一线二线支持
284 +|8.2.4.2|实施解决方案|如权限足够,则直接实施解决方案|更新的事件单|实施解决方案|IT运维部|一线二线支持
285 +|8.2.4.3|是否发生错误?|在实施解决方案的过程发生了错误?|实施解决方案过程|无|IT运维部|一线二线支持
286 +|8.2.4.4|是否需要升级?|判断是否要对错误升级|实施解决方案|无|IT运维部|一线二线支持
287 +|8.2.4.5|重分派给其他人或支持组|针对权限不足或者处理过程发生错误的情况,都应及时把事件单转回协调员处理|实施解决方案|转派的事件单|IT运维部|一线二线支持
288 +
289 +(% class="wikigeneratedid" %)
290 +== ==
291 +
292 +== 5.6 关闭事件单 ==
293 +
294 +
295 +(% style="text-align:center" %)
296 +[[image:1730466575075-826.png]]
297 +
298 +流程活动:
299 +
300 +|序号|活动|说明|输入|输出|负责部门|角色
301 +|8.2.5.1|确认并更新解决方案|确认已解决用户故障,更新解决方案内容|故障处理结果|更新的解决方案|IT运维部|一线二线支持
302 +|8.2.5.2|关闭事件单|关闭事件单|更新的事件单|关闭的事件单|IT运维部|一线二线支持
303 +|8.2.5.3|事件由监控系统引起?|事件单关闭后,系统会自动判断事件单是否来自监控系统告警|关闭的事件单|事件解决状态|IT运维部|系统
304 +|8.2.5.4|事件由日常运维引起?|事件单关闭后,系统会自动判断事件单是否来自日常运维单,如果是则返回事件单状态给日常工单。|关闭的事件单|事件解决状态|IT运维部|系统
305 +
306 +(% class="wikigeneratedid" %)
307 +== ==
308 +
309 +== 5.7 紧急/重大事件处理子流程 ==
310 +
311 +制定紧急/重大事件处理子流程的目标:
312 +
313 +* 当紧急/重大事件发生时,尽可能采取措施减少对于业务带来的影响
314 +* 确保对紧急情况的有效管理
315 +** 加快紧急事件的响应和处理速度
316 +** 对紧急情况中的人员及采取的行动加强管理
317 +** 加强处理人员与用户之间的沟通和反馈
318 +** 对紧急情况妥善处理
319 +
320 +流程原则:
321 +
322 +* 制定各系统应急处理预案
323 +
324 +为了确保系统发生重大故障时,能够尽快恢复业务,并充分调动技术力量,在最短时间内排除故障,各系统应该建立相应的应急处理预案,建议预案中的内容至少应涵盖以下方面:
325 +
326 +1. 应急预案启动条件
327 +1. 应急处理小组负责人和成员联系名单和联系方式
328 +1. 应急处理步骤
329 +1. 应急信息报告
330 +1. 应急善后处理
331 +1. 应急保障措施(人员、培训、演习、场地等)
332 +
333 +* 紧急/重大事件需要及时上报信管部,II级或I级事件协调归口业务部门共同解决。
334 +* 紧急/重大事件判断原则
335 +
336 +根据应用系统的安全事件的分类及处置流程,只要达到此标准“导致Ⅳ级以上系统服务停止时间超过8小时,但能在24小时内恢复的事件”,均需启动紧急/重大事件子流程进行处理。详细说明参考“安全事件的分类及处置流程”及7.2事件影响度的描述。
337 +
338 +
339 +(% style="text-align:center" %)
340 +[[image:图片2.jpg]]
341 +
342 +
343 + 图7紧急/重大事件处理子流程
344 +
345 +
346 +流程活动:
347 +
348 +|(% style="width:73px" %)序号|(% style="width:291px" %)活动|(% style="width:940px" %)说明|(% style="width:240px" %)角色
349 +|(% style="width:73px" %)8.2.6.1|(% style="width:291px" %)召集应急工作组,讨论决策|(% style="width:940px" %)事件经理主持会议,并组织讨论、分析紧急/重大事件的级别和处理方案|(% style="width:240px" %)(((
350 +事件经理
351 +
352 +重大事故评定委员会
353 +)))
354 +|(% style="width:73px" %)8.2.6.2|(% style="width:291px" %)是否有应急预案?|(% style="width:940px" %)根据紧急事件现象和所属系统,检查是否有相应系统的应急预案?|(% style="width:240px" %)重大事故评定委员会
355 +|(% style="width:73px" %)8.2.6.3|(% style="width:291px" %)按照应急预案处理|(% style="width:940px" %)根据各系统制定的应急预案中的实施步骤,处理紧急事件|(% style="width:240px" %)重大事故评定委员会
356 +|(% style="width:73px" %)8.2.6.4|(% style="width:291px" %)是否II级或I级事件?|(% style="width:940px" %)判断事件级别,确定是否需要归口业务部门参与处理。|(% style="width:240px" %)重大事故评定委员会
357 +|(% style="width:73px" %)8.2.6.5|(% style="width:291px" %)组织信管部人员共同分析、制定恢复计划并实施方案|(% style="width:940px" %)(((
358 +如III级、IV级事件,重大事故评定委员会负责组织管部与相关供应商共同分析紧急事件,制定相应的恢复计划和处理方案,处理方案在实施前应得到重大事故评定委员会和相关领导的认可;
359 +
360 +事件处理过程中如果需要中断业务或对系统的IT组件产生变更,则需要按照紧急变更管理流程的定义和要求,提出紧急变更请求
361 +)))|(% style="width:240px" %)(((
362 +重大事故评定委员会
363 +
364 +信管部归口人
365 +)))
366 +|(% style="width:73px" %)8.2.6.6|(% style="width:291px" %)组织信管部及归口业务部门人员共同分析、制定恢复计划并实施方案|(% style="width:940px" %)(((
367 +如II级、I级事件,重大事故评定委员会负责组织信管部、归口业务部门与相关供应商共同分析紧急事件,制定相应的恢复计划和处理方案,处理方案在实施前应得到重大事故评定委员会和相关领导的认可;
368 +
369 +事件处理过程中如果需要中断业务或对系统的IT组件产生变更,则需要按照紧急变更管理流程的定义和要求,提出紧急变更请求
370 +)))|(% style="width:240px" %)(((
371 +重大事故评定委员会
372 +
373 +信管部归口人
374 +
375 +归口业务部门
376 +)))
377 +|(% style="width:73px" %)8.2.6.7|(% style="width:291px" %)事件解除?|(% style="width:940px" %)确定故障是否已排除,如已解除,转善后处理流程;如未解除,则需要由事件经理继续协调研究解决方案。|(% style="width:240px" %)(((
378 +事件经理
379 +
380 +重大事故评定委员会
381 +)))
382 +|(% style="width:73px" %)8.2.6.8|(% style="width:291px" %)善后处理和通报|(% style="width:940px" %)(((
383 +事件解决后,信管部和重大事故评定委员会应向用户、公司相关领导报告事件处理过程,解决方法,事件解除时间,业务恢复情况。
384 +
385 +事件处理人在流程平台确定事件解决时间,填写解决方案。
386 +
387 +事件处理人需要创建一个新问题,将紧急/重大事件处理过程的详细信息记录到问题单中,提交到问题经理,由问题经理组织相关专家进行问题根源的分析
388 +)))|(% style="width:240px" %)(((
389 +重大事故评定委员会
390 +
391 +信管部归口人
392 +)))
393 +
394 += **6. 关键角色、职责定义** =
395 +
396 +|角色|职责|建议人员或岗位
397 +|事件经理|(((
398 +* 监控交互流程的运行状况;
399 +* 监控事件流程的运行状况;
400 +* 负责对事件解决过程中的资源协调,保证故障的最终排除;
401 +* 当事件超时升级或重大事件升级时,负责或参与资源协调、解决事件;
402 +* 确保和问题管理流程的有效合作;
403 +* 基于事件处理状况,发现IT或业务相关的问题;
404 +* 事件处理过程中,解决方案的审批及提出RFC。
405 +* 技能要求:
406 +** 充分理解业务相关IT政策、操作过程和标准;
407 +** 基本了解业务系统环境;
408 +** 具有流程的知识;
409 +** 了解用户需求;
410 +** 分析技能;
411 +** 理解服务水平承诺;
412 +** 用户关系技能。
413 +)))|
414 +|一线(远程员)、二线支持人员|(((
415 +* 验证事件的描述和处理状况,进一步收集相关信息;
416 +* 根据专业技能和知识库等,确定并实施有效解决方案或临时变通方法;
417 +* 更新事件记录和解决方案,确保事件状态代码真实反映事件状态;
418 +* 远程员负责远程解决用户故障;
419 +* 二线支持人员负责现场解决用户故障以及远程员无法解决的故障;
420 +* 已解决的事件转回质控员,由质控员进行用户确认并关闭事件;
421 +* 技能要求:
422 +** 基本理解业务相关IT政策、操作过程和标准;
423 +** 理解相关的操作过程和工作指导;
424 +** IT基础架构和操作环境中某一方面的较高的技术知识;
425 +** 用户关系技能;
426 +** 分析技能。
427 +)))|
428 +|协调员|(((
429 +* 审核并接受或拒绝分配给支持组的突发事件
430 +* 协调交互单及事件单的分派;
431 +* 负责ITSM系统日常维护工作;
432 +* 负责每周及每月通过ITSM系统及CTI系统进行运维数据收集和整理,向事件经理提交运维数据;
433 +* 收集、整理和汇总各运维组提交的周报和月报,结合信息运维数据,撰写信息运维周报及信息运维月报,提交至事件经理审核。
434 +* 每日对事件处理过程及事件状态(事件单是否受理、事件单是否响应超时、事件单是否处理超时、设备送修情况等)进行跟踪与检查,每天向事件经理提交检查日志。
435 +
436 +* 技能要求:
437 +** 基本理解业务相关IT政策、操作过程和标准;
438 +** 理解相关的操作过程和工作指导;
439 +** IT基础架构和操作环境中某一方面的较高的技术知识;
440 +** 分析技能。
441 +)))|
442 +|重大事故评定委员会|(((
443 +* 根据紧急/重大事件的现象和所属系统,检查相应的应急预案,并组织人员按照应急预案中的实施步骤,处理故障;
444 +* 评定事件级别,负责组织信管部、归口业务部门与相关供应商共同分析紧急事件,共同制定相应的恢复计划和处理方案;
445 +* 事件解决后,重大事故评定委员负责向用户、公司相关领导报告事件处理过程,解决方法,事件解除时间,业务恢复情况;
446 +)))|IT运维部
447 +|质控员|合并至交互流程质控员|
448 +
449 += **7. 流程相关定义** =
450 +
451 +== 7.1 事件单信息项 ==
452 +
453 +事件单必须包含如下信息项,可以在此基础上扩充:
454 +
455 +|序号|信息项|说明
456 +|1|事件ID|系统为此事件生成的唯一 ID。
457 +|2|状态|(((
458 +显示突发事件的状态。
459 +
460 +建议以下预置状态:
461 +
462 +• 打开 — 此突发事件已经打开,但目前没有得到处理。
463 +
464 +• 关闭 — 此突发事件已得到解决,并且得到了客户的同意。
465 +
466 +• 已解决 — 有一个解决方案,但未经客户验证。
467 +
468 +• 正在处理 — 正在处理此突发事件。
469 +
470 +• 待定变更 — 已打开一个相关紧急变更,正在等待关闭该变更。
471 +
472 +• 暂停 — 客户同意将此突发事件暂停一段时间;记录单将不会在该时段出现在待办队列中。
473 +)))
474 +|3|联系人|联系人不一定是服务接收人。此字段可以确保合适的人员将会得到有关交互更新的通知。
475 +|4|代理人|指定处理此突发事件的人员的姓名。此人是所分配的支持组的成员。代理人可以属于一个或多个分配组。
476 +|5|分配组|指定处理此突发事件的支持组
477 +|6|受影响的服务|该服务受此突发事件影响。此字段由交互记录中的数据填充。
478 +|7|受影响的配置项|对服务产生负面影响的配置项 (CI)。此字段由交互记录中的数据填充。
479 +|8|配置项可操作(服务不会中断)|如果已选择(设置为 true) ,则表示配置项当前正在操作中,而且服务不会中断。默认情况下,打开一个针对配置项的突发事件时,该配置项标记为出现故障。如果该配置项仍然正常工作,则应该标记此字段。
480 +|9|事件来源|参见“事件来源”定义
481 +|10|服务中断开始时间|(((
482 +服务中断开始的日期和时间。服务中断的开始和结束时间用于衡量“服务级别协议” (SLA) 的可用性。如果配置项标记为出现故障,则可用性 SLA 将不再支持该配置项。可用性值默认为打开和关闭突发事件的时间,但打开或关闭突发事件之前可能会经历几分钟或几小时,因此,需要变更该值,以报告实际的服务中断开始和结束的时间。例如,设备可能在夜间出现了故障,而且必有人报告该问题
483 +
484 +之后,突发事件才会打开。在此情况下,默认的打开时间不能准确反映服务中断时间。
485 +)))
486 +|11|服务中断结束时间|服务中断结束的日期和时间。服务中断的开始和结束时间用于衡量 SLA 的可用性。如果配置项标记为出现故障,则可用性 SLA 将不再支持该配置项。可用性值默认为打开和关闭突发事件的时间,但需要变更该值以报告实际的服务中断结束时间。例如,重新启动配置项之后,可以对其进行操作,但可能要花数分钟或数小时,才能更新记录,以报告突发事件已关闭。在此情况下,默认的关闭时间不能准确反映实际的服务中断时间。
487 +|12|位置|报告突发事件的位置。此字段由已升级交互中的数据预先填充。此字段仅供参考。
488 +|13|标题|(((
489 +概述突发事件的简短描述。此字段由已升级交互中的数据预先填充。
490 +
491 +此为必填字段。
492 +)))
493 +|14|描述|(((
494 +突发事件的详细描述。此字段由已升级交互中的数据预先填充。
495 +
496 +此为必填字段。
497 +)))
498 +|15|类别|描述突发事件类型,由已升级交互中的数据预先填充。
499 +|16|区域|此字段由已升级交互中的数据预先填充。对此区域的选择取决于类别。
500 +|17|子区域|第三级交互分类,主要用于进行报告。此字段由已升级交互中的数据预先填充。
501 +|18|影响度|(((
502 +此字段由已升级交互中的数据预先填充。它指明了突发事件对业务产生的影响。
503 +
504 +影响和紧急程度用于计算优先级。
505 +)))
506 +|19|紧急度|(((
507 +此字段由已升级交互中的数据预先填充。紧急程度表示此突发事件对于组织的紧
508 +
509 +迫程度。紧急程度和影响用于计算优先级。
510 +)))
511 +|20|优先级|此突发事件相对其他突发事件的排列顺序。优先级值是根据初始影响和紧急程度来计算的。只有从交互更新或升级突发事件时,此字段才显示。
512 +|21|SLA目标日期|下一个“服务级别目标”(SLO) 到期的日期和时间。此字段基于与突发事件信息相匹配的 SLO 进行填充,所用日期是违反协议之前即将到期的 SLO。
513 +|22|解决代码|(((
514 +指定一个预定义的解决代码,用于说明如何解决突发事件。此字段的预置选项基于客户的参考数据。
515 +
516 +建议以下预置解决代码:
517 +
518 +• 不可重现
519 +
520 +• 超出范围
521 +
522 +• 请求被拒
523 +
524 +• 通过变更/ 服务请求解决
525 +
526 +• 通过用户说明解决
527 +
528 +• 通过应对措施解决
529 +
530 +• 无法解决
531 +
532 +• 被用户撤销
533 +)))
534 +|23|关闭代码|此项是在服务台质控员在回访时,同用户确定的最终结果
535 +|24|解决方案|提供对突发事件解决方案的说明。
536 +
537 +== 7.2 事件影响度 ==
538 +
539 +|(% rowspan="2" %)**影响度**|(% rowspan="2" %)**定义**|(% colspan="5" %)**判断依据**
540 +|**系统级别**|**停止时间**|**恢复时间**|**大面积报障类型**|**影响范围**
541 +|(% rowspan="4" %)1级-特别重大|(% rowspan="2" %)造成系统完全损坏或严重损坏,数据全部或大部分损坏,且无法进行系统修复或容灾切换的,必须重建系统,备份恢复数据方可恢复正常服务|I级|N/A|N/A|N/A|N/A
542 +|II级|N/A|N/A|N/A|N/A
543 +|(% rowspan="2" %)信息系统数据丢失或被窃取、篡改、假冒,对公司形象造成负面影响,可能对社会稳定构成威胁的|I级|N/A|N/A|N/A|N/A
544 +|II级|N/A|N/A|N/A|N/A
545 +|(% rowspan="6" %)2-严重|(% rowspan="6" %)因重大系统故障引发的,造成系统服务停止,或系统大量重要数据损坏,且一定时间内无法恢复系统正常运行的|(% rowspan="2" %)I级|(% rowspan="2" %)>1小时|(% rowspan="2" %)>4小时|(% rowspan="2" %)网络故障|同一栋楼或五名以上用户
546 +|同一线路有三个或以上车站
547 +|(% rowspan="2" %)II级|(% rowspan="2" %)>2小时|(% rowspan="2" %)>8小时|I、II级系统故障|两个或以上用户
548 +|III级系统故障|三个或以上用户
549 +|III级|>4小时|>16小时|N/A|N/A
550 +|IV级|>8小时|>24小时|N/A|N/A
551 +|(% rowspan="2" %)3-一般|(% rowspan="2" %)(((
552 +能够导致较小影响或破坏的事件;
553 +
554 +影响少部分客户;
555 +
556 +监控工具产生一般告警
557 +)))|N/A|N/A|15天内|设备故障|三个或以上用户
558 +|N/A|N/A|1天内|病毒问题|三个或以上用户
559 +|(% rowspan="2" %)4-微小|(% rowspan="2" %)微小故障指的是不会影响业务连续性的故障。例如键盘鼠标损坏,无法连接INTERNET等故障。|N/A|N/A|二周内|桌面|五个或以上用户
560 +|N/A|N/A|5分钟内|基础架构预警信号|一个或以上
561 +
562 +== 7.3 事件紧急度 ==
563 +
564 +|紧急度编码|紧急时间标准|描述
565 +|1-非常紧急|8小时|服务需8小时内提供(恢复)
566 +|2-紧急|24小时|服务需24小时内提供(恢复)
567 +|3-一般|48小时|服务需48小时内提供(恢复)
568 +|4-略微紧急|72小时|服务需72小时内提供(恢复)
569 +
570 +== 7.4 事件优先级 ==
571 +
572 +|(% colspan="2" rowspan="2" %)优先级|(% colspan="4" %)影响度
573 +|1-特别重大|2-严重|3-一般|4-轻微
574 +|(% rowspan="4" %)紧急度|1-非常紧急|1-最高|2|2|3
575 +|2-紧急|2|2-高|3|3
576 +|3-一般|2|3|3-中|4
577 +|4-略微紧急|3|3|4|4-低
578 +
579 +== 7.5 事件来源 ==
580 +
581 +给事件分级是事件管理的一个关键要素,事件的分级决定处理这个事件的顺序及所提供的资源。
582 +
583 +|编号|来源|描述
584 +|1|用户报告|用户通过电话、邮件或WEB报告的事件,服务台人员手工创建事件单
585 +|2|监控告警|监控工具发现的告警事件
586 +|3|日常运维发现|IT运维部日常运维检查产生事件
587 +
588 +== 7.6 事件性质 ==
589 +
590 +|类别|信息项|说明
591 +|突发事件|访问|授权错误
592 +|突发事件|访问|登录失败
593 +|突发事件|数据|数据或文件损坏
594 +|突发事件|数据|数据或文件不正确
595 +|突发事件|数据|数据或文件丢失
596 +|突发事件|数据|超过存储限制
597 +|突发事件|失败|错误消息
598 +|突发事件|失败|不正常工作
599 +|突发事件|失败|作业失败
600 +|突发事件|失败|系统故障
601 +|突发事件|硬件|硬件故障
602 +|突发事件|硬件|丢失或被盗
603 +|突发事件|性能|性能降低
604 +|突发事件|性能|系统或应用程序挂起
605 +|突发事件|安全|违反安全性
606 +|突发事件|安全|安全事件/ 消息
607 +|突发事件|安全|病毒警报
608 +
609 +== 7.7 事件分类 ==
610 +
611 +|类别|子类|一级模块
612 +|(% rowspan="72" %)应用系统|(% rowspan="6" %)外部网站(含子公司网站)|招贤纳才
613 +|招标投标
614 +|乘客服务
615 +|企业概况
616 +|企业商务
617 +|新闻中心
618 +|(% rowspan="2" %)企业内部门户|UUV用户管理
619 +|SSO应用系统管理
620 +|(% rowspan="6" %)财务管理系统|总帐管理
621 +|应付管理
622 +|应收管理
623 +|固定资产管理
624 +|项目会计管理
625 +|预转资管理
626 +|资金管理系统|
627 +|(% rowspan="7" %)合同管理系统|范本管理
628 +|合同计划
629 +|合同招标
630 +|合同台账
631 +|合同管理
632 +|合同支付
633 +|系统管理
634 +|运营设备维修系统|
635 +|运营施工调度管理系统|
636 +|运营物流管理系统|需求管理
637 +| |计划管理
638 +| |采购寻源管理
639 +| |采购订单管理
640 +| |物资库存管理
641 +|票务管理系统|
642 +|GIS系统|
643 +|(% rowspan="7" %)数字认证平台|部门管理
644 +|用户管理
645 +|系统日志查询
646 +|验证选项
647 +|证书管理
648 +|印章制作
649 +|证书审计查询
650 +|SPS平台|
651 +|IT运维系统|
652 +|办公自动化系统(新)|
653 +|办公自动化系统(旧)|
654 +|合同管理系统(新)|
655 +|档案管理系统(新)|
656 +|P3E|
657 +|档案管理系统(旧)|
658 +|统一通讯平台|
659 +|视频会议系统|
660 +|基建物流管理系统|
661 +|人力资源管理系统|
662 +|财务管理系统|
663 +|原OA系统|
664 +|立项管理系统(原OA)|
665 +|企业内部门户|
666 +|工程设计管理系统|
667 +|内部专家评标系统|
668 +|内部网站(含信息专区)|
669 +|交流园地|
670 +|WCM|
671 +|内部网站后台|
672 +|外部网站后台|
673 +|外部网站招聘管理|
674 +|外部网站招投标管理|
675 +|资产标识码系统|
676 +|企业统计报表系统|
677 +|运营日报|
678 +|MAXIMO系统|
679 +|施工调度管理系统|
680 +|工作证管理系统|
681 +|车站收益系统|
682 +|系统开发服务|
683 +|系统培训服务|
684 +|桌面终端| |
685 +|服务器| |
686 +|存储和备份系统| |
687 +|网络| |
688 +|其他| |
689 +
690 +== 7.8 事件关闭代码 ==
691 +
692 +|编号|代码|描述
693 +|1|已完成|设备、业务系统等故障已得到修复;
694 +|2|未完成|(((
695 +故障没有被修复,需要再次进行处理;
696 +
697 +对于该类事件,需要重新开单,并分配给原来处理该事件的人员进行处理。
698 +)))
699 +
700 += **8. 与其他流程的关系** =
701 +
702 +
703 +(% style="text-align:center" %)
704 +[[image:1730466916388-384.png]]
705 +
706 +* 和交互管理流程的关系
707 +
708 +用户交互流程作为事件管理流程的入口之一,统一由服务台接收用户各种需求如故障申报、服务请求等,然后再分别转到事件管理流程处理故障。
709 +
710 +* 和问题管理流程的关系
711 +
712 +事件管理流程将提供事件的详细、精确的记录信息给问题管理流程来定位问题及分析问题的趋势,以及在优先级为紧急的事件解决并恢复服务后做为问题进行进一步的分析和处理。
713 +
714 +* 和配置管理流程的关系
715 +
716 +需要从配置管理数据库中查询配置项的属性和配置项间的关联关系来定位故障和帮助快速的恢复。
717 +
718 +* 和变更管理流程的关系
719 +
720 +在事件的解决过程中,必要时需要发起变更请求来解决事件。
721 +
722 +* 和服务请求管理流程的关系
723 +
724 +在事件的解决过程中,必要时需要发起服务请求来解决事件。
725 +
726 +* 和日常运维管理流程的关系
727 +
728 +在日常运维的过程中,如检测到有潜在风险或已发生的故障,需要发起事件单进行处理。
729 +
730 +* 和服务级别管理流程的关系
731 +
732 +事件管理流程中的优先级根据服务级别协议来确定,事件管理流程产生的故障中断时间等数据是服务级别管理的数据来源之一。
733 +
734 +
735 +
736 +
737 +
738 += **9. 关键流程衡量指标** =
739 +
740 +流程的考核指标是为了判断流程的效率和有效性,利用整合的指标数据来确定流程改进的机会,以确保流程的有效性和效率。下面是有效测量用户交互管理流程输出的典型指标:
741 +
742 +|衡量指标|统计方法
743 +|事件总数|(((
744 +数量:在事件单中根据以下条件过滤
745 +
746 +【重复事件标记】为空
747 +
748 +【事件解决代码】不等于‘消失’or‘误报’or‘可忽略’
749 +
750 +【事件发生时间】在统计周期内
751 +)))
752 +|事件关闭的数量|数量 :在事件总数中过滤【事件状态】=‘关闭’
753 +|事件成功关闭的数量/比率|(((
754 +数量:在事件总数中过滤【事件关闭代码】=‘已完成’
755 +
756 +比率:数量 / 事件总数 × 100 %
757 +)))
758 +|规定时间内解决的事件数量/百分比|(((
759 +数量:在事件总数中过滤((【实际完成时间】-【登记时间】)<【事件完成期限】)and 【事件关闭代码】=‘已完成’
760 +
761 +比率:数量/事件总数 × 100 %
762 +)))
763 +|规定时间内响应的事件数量/百分比|(((
764 +数量:在事件总数中过滤(【实际开始时间】-【登记时间】)< 优先级对应的响应时限
765 +
766 +比率:数量/事件总数 × 100 %
767 +)))
768 +|平均解决时间|(((
769 +完成的事件:在事件总数中过滤所有【事件状态】=‘已解决’or ‘关闭’的事件
770 +
771 +平均解决时间:累加完成事件的(【实际完成时间】-【登记时间】)/ 完成的事件数量
772 +)))
773 +|超时未解决的事件数量|数量:在事件总数中过滤((【实际完成时间】-【登记时间】)<【事件完成期限】)and 【事件状态】!=‘关闭’
774 +|事件的一次解决率|(((
775 +数量1:在事件总数中过滤【事件关闭代码】=‘已完成’
776 +
777 +数量2:在事件总数中过滤【事件关闭代码】=‘未完成’
778 +
779 +比率:(数量1-数量2 ) / 数量1  × 100 %
780 +)))
781 +
782 += **10. 功能性需求** =
783 +
784 +* ITSM平台与监控平台集成,监控系统生成的告警事件自动在ITSM平台生成事件单,并由协调员分派处理人员;
785 +* 分派和转派事件单、创建变更单或请求单等人员转换的节点需要有短信通知提醒;
786 +
787 += =
788 +
789 += =
790 +
791 += **11. 流程质量控制** =
792 +
793 +
794 +(% style="text-align:center" %)
795 +[[image:1730466981326-640.png]]
796 +
797 +流程活动:
798 +
799 +|序号|(% style="width:126px" %)活动|(% style="width:1049px" %)说明|(% style="width:330px" %)角色
800 +|1|(% style="width:126px" %)现有流程评估|(% style="width:1049px" %)通过对KPI的完成程度,事件历史记录等数据进行差距、趋势分析,定期对事件管理流程的实施有效性、服务质量和用户满意度进行回顾;生成差距分析评估报告、趋势分析报告|(% style="width:330px" %)流程经理、流程执行人员
801 +|2|(% style="width:126px" %)制定改进计划|(% style="width:1049px" %)根据差距分析评估报告、趋势分析报告总结待改进项,制定改进计划,改进计划中包括:流程的待改进项和改进机会、改进收益、执行改进计划可能带来的影响和风险、所需资源、测试和培训计划、实施计划、相关的支持文档等内容|(% style="width:330px" %)流程经理、流程执行人员
802 +|3|(% style="width:126px" %)审批改进计划|(% style="width:1049px" %)事件经理协调改进涉及到的相关人等对改进计划进行评估审批;提交RFC|(% style="width:330px" %)流程经理
803 +|4|(% style="width:126px" %)执行改进计划|(% style="width:1049px" %)调动资源,组织相关人员执行被批准的改进计划|(% style="width:330px" %)流程经理、流程执行人员
804 +|5|(% style="width:126px" %)回顾|(% style="width:1049px" %)对改进后的结果进行回顾,评估改进计划是否成功,存在哪些待改进项;依据PDCA方法论再次执行步骤1对现有流程进行评估,对流程进行持续改进,起到对流程质量控制的作用|(% style="width:330px" %)流程经理、流程执行人员
805 +
806 +* 需要调整的既有文件及调整要求
807 +
808 +|**序号**|**既有文件名**|**调整内容**
809 +|1|《大面积报障定义》|
810 +
811 += **附录 评审修改记录** =
812 +
813 +
814 +|(% colspan="2" %)(((
815 +**文件收到时间:2012年7月18日**
816 +
817 +**通过评审时间:2012年X月XXx日    **
818 +)))
819 +|(((
820 +项目报告
821 +
822 +名称:
823 +)))|XX地铁XXXX年信息化基础架构平台建设项目_ ITIL咨询阶段成果
824 +|报告内容摘要:|事件管理流程设计
825 +|质量控制小组(含运维)评审意见及修改记录|(((
826 +1.紧急/重大事件与应急预案的衔接关系
827 +
828 +解答: 在紧急/重大事件子流程对应急预案的启动节点作了说明,同时简单描述了应急预案应涵盖的内容。
829 +
830 +
831 +2.信管部在紧急/重大事件流程上的体现
832 +
833 +解答:已重新制订紧急/重大事件流程图,明确标示信管部的活动节点。
834 +
835 +
836 +3.大面积报障的优先级定义,要和事件管理流程的影响度匹配。
837 +
838 +解答:已在7.2事件影响度加入了大面积报障的定义。
839 +
840 +
841 +4.紧急、重大事件需要补单
842 +
843 +解答:已增加补单原则。
844 +
845 +
846 +)))
847 +|项目总监评审意见及修改记录|
848 +|(% colspan="2" %)(((
849 +**评审结论:**
850 +
851 + [√ ] 通过 [ ]不通过
852 +
853 +
854 +质量控制小组组长签字:                           项目总监签字:
855 +
856 +年 月 日 年 月 日
857 +)))
858 +
859 +
Icon 1730466981326-640.png
Author
... ... @@ -1,0 +1,1 @@
1 +XWiki.superadmin
Size
... ... @@ -1,0 +1,1 @@
1 +40.8 KB
Content Icon
深圳市艾拓先锋企业管理咨询有限公司