Show last authors
1 [[返回本章节索引>>url:http://www.itil4hub.cn/bin/view/G%20%E5%8F%82%E8%80%83%E8%B5%84%E6%96%99/ITIL%E5%AE%9E%E6%96%BD%E9%A1%B9%E7%9B%AE%E8%B5%84%E6%96%99/ITIL%E5%AE%9E%E6%96%BD%E9%A1%B9%E7%9B%AE%E6%B5%81%E7%A8%8B%E8%AE%BE%E8%AE%A1%E6%96%B9%E6%A1%88%E9%9B%86/%E9%97%AE%E9%A2%98%E7%AE%A1%E7%90%86/]]  阅读下一篇
2
3
4 = ** ITIL问题管理流程需求说明书** =
5
6
7 === **1 流程目的** ===
8
9 ★问题管理流程的主要功能是消除或减少事件的发生,对于重复发生的事件以及原因不明的事件、以及工作中主动发现的问题须使用问题管理流程进行解决,保持中国移动南方基地 IDC 业务支撑系统的健康性,其目的包括:
10
11 * 在成本允许的范围内尽快降低关联事件的重复发生
12 * 关联重复发生的事件
13 * 管理原因不明的事件
14 * 沟通解决问题需要的资源(软件、硬件、网络供应商)
15 * 和事件经理确认同类事件带来的风险和隐患
16
17 ★进行问题控制
18
19 * 按规范关联重复发生的事件和原因不明的事件并生成问题
20 * 分析并诊断问题的根本原因
21 * 建立已知错误列表并制订解决方案
22 * 制订解决问题的变更方案
23 * 监控并跟踪解决方案的实施结果
24 * 进行定期的服务流程回顾
25
26 === ===
27
28 === **2. 流程主要内容** ===
29
30
31 问题(Problem)是导致事件产生的根源。问题管理流程是事件管理流程的延展部分,用于处理大量重复发生的事件以及原因不明的事件,要求独立使用资源进行解决,并根据中国移动南方基地 IDC 现实运维情况排程实施问题的解决方案。该流程包含下述主要内容:
32
33 ★问题的生成和记录
34
35 这个环节是问题管理流程的起点。此步骤的目的是为了能够在中国移动南方基地 IDC 运维事件中发现具有隐患或风险的环节,以协助问题管理人员通知相应厂商或第三方公司进行解决,在此步骤中将会收集重复发生的事件或原因不明的事件的记录信息。
36
37 该环节的关键是事件记录的准确性和完整性。
38
39 ★问题的分类与支持
40
41 问题可以是来自中国移动南方基地 IDC 业务环节中的任何一个部分,对每个问题都需要进行分类与分级,并区分来自业务逻辑的问题与来自业务系统的问题。对于没有找到解决方案的问题,需要自动累计关联的事件用以提高问题的严重程度,同时将问题分配给合适的厂商或第三方公司进行调查。
42
43 ★问题的诊断和调查
44
45 问题常常会表现为具体的技术难题,中国移动南方基地运维团队须支持并协助相关厂商或第三方公司寻求解决方案。
46
47 ★问题的解决与回顾
48
49 问题在得到解决方案并且通过变更管理流程实施后,须跟踪是否继续出现相应的事件。
50
51 此环节的关键在于如何更好的识别相应的事件。
52
53 ★已知错误与解决方案
54
55 已知错误是指找到解决方案但还未通过变更管理流程进行实施的问题处理方法。已知错误应当在变更管理流程中排程实施。
56
57 ★问题的关闭
58
59 当最终确认问题被解决后,可结束该问题。
60
61
62 === **3 与其他流程的关系** ===
63
64 ★和事件管理流程的关系
65
66 问题管理流程提供对事件管理流程的统计、分析与优化。合理执行问题管理流程能够降低事件的发生几率,将事件管理逐步导向到平稳运行的状态。
67
68 ★和变更管理流程的关系
69
70 问题管理流程为变更管理流程提供触发,问题的解决方案会成为执行变更管理流程的动因。
71
72 ★和配置管理流程的关系
73
74 问题的解决方案通常都会涉及到 IT 基础架构方面的变化,所以,不仅问题的解决过程需要读取配置管理的数据,在实施问题的解决方案的时候也会成为执行配置管理流程的动因。
75
76
77 === **4. 问题管理服务组织架构概述** ===
78
79 ===== **4.1.问题经理** =====
80
81 问题经理从总体上对问题管理流程的设计、实施、执行及优化负责,确保问题管理流程被正确的执行。当流程不能够适应运维实际情况时,问题经理必须及时对此进行分析,找出原因,加以改进,从而实现持续提高。
82
83 1) 确定并协调必要资源来处理所有(潜在)影响服务级别的所有类型问题,最小化问题的负面影响;
84
85 2) 领导问题管理小组,确保员工的积极性、技能水平和绩效表现;
86
87 3) 保持与其他流程负责人的定期沟通。
88
89 4) 将问题分派给所属相关专业的问题专家(团队)进行处理;
90
91 5) 跟踪问题解决的过程,必要时进行升级以及问题升级后的协调工作;
92
93 6) 对问题解决方案进行评审;
94
95 7) 将关键问题的解决状态及时地通报给相应的人员和管理层;
96
97 8) 确保制定清晰有效的工作流程和准则;
98
99 9) 确保所有相关人员都足够程度地引入到问题管理的流程中,定期度量问题管理流程执行情况和团队绩效,召开问题管理会议,改进问题管理流程。
100
101 ===== **4.2.问题专家(团队)** =====
102
103 1) 接受问题负责人分派的问题;
104
105 2) 通过在某一方面的专业知识和技能(网络或应用)来支持问题管理经理,确保事件的快速解决和 IT 服务的快速恢复;
106
107 3) 分析诊断问题的根本原因;
108
109 4) 提出解决方案并落实执行;
110
111 5) 提供问题的正确状态、进展和历史信息。
112
113 6) 必要时协调外部专家团队或供应商参与诊断和解决问题;
114
115 7) 协调变更管理功能,实施解决方案;
116
117 8) 整理常见或典型的问题记录,提交知识申请。
118
119 ===== **4.3.问题分析员** =====
120
121 1) 主动分析,发现和识别问题,并填写问题记录;
122
123 2) 必要时配合问题专家诊断和解决问题;
124
125 3) 关闭问题,确保问题各项记录的完整性。
126
127 4) 利用现有 IT 环境分析历史数据来改善 IT 系统和工作方法从而避免潜在问题的发生;
128
129 5) 在必要时修正事件或问题的影响度和分类编码;
130
131 6) 在服务中断时,尽快提供临时解决方案,帮助客户尽快恢复正常工作状态;
132
133
134 === **5. 流程执行原则** ===
135
136 ===== **5.1.常规原则** =====
137
138 ★中国移动南方基地 IDC 业务范围内发生的问题,都应该记录在 IT 服务管理平台中,记录的信息应足够详细,包括与其他流程的关联、问题处理交互过程,详细的解决方案和相应的附件、相应的资产信息。
139
140 ★ 应鼓励事件管理流程相关人员主动提出问题,增加问题的来源渠道,问题分析员应按照专业领域对接收到的问题申请认真分析和识别,进行初步筛选;
141
142 ★ 并非所有问题都需立即彻底解决,问题经理应综合考虑成本效益原则,评估问题解决的合适时机;
143
144 ★常见和典型的问题解决方案应申请纳入知识库;
145
146 ★问题的分类与事件的分类应尽量保持一致;
147
148 ★每月应召集问题管理会议,产生和回顾问题管理报表,以改进问题管理流程。对于未解决的问题,每月举行的问题管理会议进行讨论与分析。
149
150 ★中国移动南方基地所有 IT 支持人员须有效响应问题专家(团队)、厂商或第三方公司为解决问题而进行的技术性工作。
151
152 ★半年对流程进行回顾,回顾内容包括流程关键衡量指标、流程执行效率和流程支持工具的有效性,以改进问题管理流程。
153
154 ===== **5.2.流程关联原则** =====
155
156 ★和事件管理的关联
157
158 * 事件处理工程师、问题分析员、事件经理需要对多次重复发生的事件在恢复服务后,创建问题;并将同类事件的信息与问题进行关联。
159 * 事件管理对问题管理来说是重要的信息来源,多次重复发生的事件在恢复服务后,都应创建问题;
160 * 问题管理一旦找到问题的根本原因,将为以后相关事件的解决提供解决方案;
161
162 ★和变更管理的关联
163
164 * 所有 IT 资源发生的变更记录在问题管理流程中需要能够根据资源进行查询。
165 * 所有问题的解决方案都必须通过变更管理流程实施;
166 * 失败的变更应该发起问题流程调查失败原因;
167 * 变更管理负责控制执行变更。变更完成后,应向问题管理反馈变更执行的结果;
168
169 ★ 和配置管理的关联
170
171 * 问题管理流程中须能够关联与产生问题相关的 IT 资源的配置数据。
172 * 所有问题的解决方案都必须在配置管理流程中记录。
173
174 ===== **5.3.所有权原则** =====
175
176 所有权原则用来确保每个问题都能有适当的人员在进行解决方案的分析与验证。
177
178 * 问题分析员负责问题的发起与审核,并对问题单负责,并且辅助问题专家进行信息搜集及分析;
179 * 问题经理负责对整个问题的监督工作;
180
181 ===== **5.4.关闭原则** =====
182
183 * 问题处理人员在解决方案分析与验证过程中,必须提供备用的应急处理方法供事件处理使用。
184 * 在解决方案实施后一个月内不再发生与问题相关的重复事件则可认为问题已经解决。
185 * 在问题关闭前,应确保问题单相关信息的完整性;
186 * 在问题经理充分评估问题后,对于哪些无法找到根本原因或解决方案的问题以及根据现状无需现阶段立即解决的问题,在得到领导批准后后,可以将问题关闭,并备注原因。
187 * 在解决方案验证后可将问题关闭。
188 * 在问题关闭后,如再次出现相应事件,则须重新打开问题继续验证解决方案的正确性
189
190
191 === **6. 流程相关定义** ===
192
193 ===== **6.1.问题信息项** =====
194
195 问题单必须包含如下图表 2 问题信息项:
196
197 [[image:微信图片_20240708145358.png]]
198
199
200 [[image:微信图片_20240708145443.png]]
201
202
203 [[image:微信图片_20240708145527.png]]
204
205
206 [[image:微信图片_20240708145611.png]]
207
208
209 [[image:微信图片_20240708145650.png]]
210
211
212 ===== **6.2.问题来源** =====
213
214 **问题来源**
215
216 问题来源代码用来标明问题的提出方式,问题来源可以包括以下几种:
217
218 [[image:微信图片_20240708145746.png]]
219
220 [[image:微信图片_20240708145816.png]]
221
222
223 ===== **6.3.问题处理概要流程** =====
224
225 从问题的生命周期出发,将问题管理过程分解为以下 6 个一级过程,形成问题管理过程的概要过程。对该 6 个过程所包含的活动,将在后续的章节中做进一步的细化和说明。流程图表 1-1 是问题处理概要流程图。
226
227 1) 问题的识别和记录
228
229 确定和记录问题;
230
231 2) 问题分类和分派
232
233 设定问题优先级、分类等,并且将问题安排给合适的问题处理组;
234
235 3) 问题调查和诊断
236
237 调查分析问题的根本原因;
238
239 4) 问题解决
240
241 根据问题分析的根本原因,提供问题解决方案或变通措施;
242
243 5) 问题关闭
244
245 如果问题得到了解决,则遵循问题关闭过程结束该问题;
246
247 6) 问题监视
248
249 监视问题的处理过程,必要时进行管理升级并负责和相关方沟通
250
251
252 [[image:微信图片_20240708145930.png]]
253
254
255 ===== **6.4.问题识别和记录** =====
256
257 问题的识别和记录过程是对如何识别和记录问题所进行具体的描述,参见流程图表 1-2 问题识别和记录流程图。
258
259 [[image:微信图片_20240708150018.png]]
260
261
262 **6.4.1 发现问题**
263
264 问题的来源:
265
266 1) 事件分析总结,没有解决方案的事件、重复发生的事件;
267
268 2) 事件经理审核事件报告时,认为根本原因没有得到识别或解决的事件;
269
270 3) 事件经理通过主动式分析(如事件发生的趋势),认为有必要作为问题进行分析的异常现象;
271
272 4) 变更失败后,可能需要生成一个问题进入后续的解决过程。
273
274 问题记录的基本信息应包括:
275
276 1) 问题创建人;
277
278 2) 问题创建人电话及电子邮件;
279
280 3) 问题创建时间;
281
282 4) 问题报告人及联系方式;
283
284 5) 问题描述;
285
286 6) 问题编号;
287
288 7) 问题状态,系统自动成为“新建”;
289
290 **6.4.2 查询知识库**
291
292 问题经理或问题分析员发现问题后,查询知识库确认此问题是否已有解决方案。如果有解决方案,转到(1.2.3)解决问题,否则转到(1.2.4)创建问题单。
293
294 **6.4.3 应用解决方案**
295
296 问题分析员或问题经理在找到问题解决方案后,要尽快实施解决方案,解决
297
298 问题。在问题得到解决后,则转入(1.6.2)填写问题关闭代码,关闭问题。
299
300 问题基本信息应包括:
301
302 1) 问题解决方案;
303
304 2) 问题处理过程及方法;
305
306 3) 问题实际开始时间;
307
308 4) 问题实际完成时间;
309
310 5) 问题状态(已解决);
311
312 **6.4.4 创建问题单**
313
314 问题分析员或问题经理根据问题具体情况,填写问题单。问题经理判断是否能够构成一个问题,如果构成问题,则转入(1.3)问题分类和分派,否则关闭问题。具体信息包括:
315
316 1) 问题描述;
317
318 2) 问题汇报时间;
319
320 3) 预计开始时间;
321
322 4) 预计完成时间;
323
324 5) 问题状态(新建或已分派);
325
326 **6.4.5 注明原因后关闭问题**
327
328 问题经理认为不能构成一个问题,或者没有价值、资源来进行问题处理的,则注明原因后关闭问题。具体信息包括:
329
330 1) 问题描述;
331
332 2) 问题状态(已取消);
333
334 ===== **6.5.问题分类和分派** =====
335
336 问题分类和分派过程是问题经理接受和安排相应的问题处理组以进行处理的过程,参见流程图表 1-3 问题分类和分派流程图。
337
338 [[image:微信图片_20240708150909.png]]
339
340
341 **6.5.1 完善问题信息**
342
343 问题经理收到问题单后,应与问题联络人沟通,确定问题性质,以安排合理的资源对问题进行处理。具体信息包括:
344
345 1) 问题报告人;
346
347 2) 问题报告人联系方式及电子邮件;
348
349 3) 问题报告人;
350
351 4) 关联事件编号;
352
353 5) 关联 CI;
354
355 **6.5.2 判断严重等级与分类**
356
357 问题的优先级是问题分析员解决问题的参照标准,对于关键优先级的问题,问题经理应该优先协调资源进行这些问题的解决。问题的优先级定义如下图表 5
358
359 [[image:微信图片_20240708151018.png]]
360
361
362 [[image:微信图片_20240708151103.png]]
363
364
365 **问题分类:**
366
367 问题分类是针对问题所属的专业类型进行划分的,通过问题分类可以定位解决问题的人,并针对问题分类进行分类统计,参见图表 6。
368
369 [[image:微信图片_20240708151145.png]]
370
371 [[image:微信图片_20240708151215.png]]
372
373
374 问题记录基本信息包括:
375
376 1) 问题描述,症状描述和任何错误代码(可以通过附加文件的方式予以描述);
377
378 2) 问题的分类(参见图表 6);
379
380 3) 问题的分级(参见图表 5);
381
382 4) 问题状态(新建)。
383
384 **6.5.3 进行关联**
385
386 问题经理判断此问题是否与其他问题相关,如果相关,则进行问题关联,并且更新问题相关信息。需要记录信息包括:
387
388 1) 问题描述;
389
390 2) 关联问题编号。
391
392 **6.5.4 分派问题**
393
394 问题经理根据设置的问题分类和优先级,协调合适的问题专家(团队)进行处理,并进行派单。为降低问题派单后被退单以及派单后问题专家未能及时获得派单信息(如在开会或不在座位),建议:
395
396 1) 当前每次在问题的分派前电话通知被分派人员,同时发送短信或邮件;
397
398 2) 如果发现人员安排紧张时,应优先安排优先级高的问题。
399
400 派单后应在系统中记录的信息包括:
401
402 1) 描述信息;
403
404 2) 派单时间;
405
406 3) 被派单人;
407
408 4) 问题的状态;
409
410 **6.5.5 接受分配**
411
412 问题专家(团队)接受到派单后,应立即着手对问题进行调查和分析。
413
414 1) 如果问题派单错误,则立即告知问题经理重新派单,并阐述理由;
415
416 2) 如果接受该派单,则开始问题调查与分析;
417
418 3) 接单后,确认问题单信息是否足够、描述是否清楚,否则联系相关人员搜集信息;
419
420 受单时应在系统中记录的信息包括:
421
422 1) 受单人;
423
424 2) 受单时间;
425
426 3) 问题状态(已分派);
427
428 ===== **6.6.问题调查与诊断** =====
429
430 问题调查和诊断过程是问题专家(团队),对问题进行分析和诊断的过程,参见下图 1-4 问题调查与诊断流程图
431
432 [[image:微信图片_20240708151633.png]]
433
434
435 **6.6.1 分析诊断问题**
436
437 问题专家接受到派单后,应立即着手对问题进行调查和分析,提供问题解决方案、方法。
438
439 **6.6.2 确认问题根源**
440
441 问题专家对问题进行分析和诊断,找出可能的原因列表。如果不能找到问题根源,则转入(1.3.4)问题经理重新分派问题。
442
443 **6.6.3 记录问题根源**
444
445 问题专家对确认的问题的原因进行记录,判断此问题是否是已知问题。如果是已知问题,则进行已知问题关联,否则转入(1.5.)问题解决。
446
447 确认根本原因阶段应记录的信息包括:
448
449 1) 问题原因描述;
450
451 2) 解决方案、方法描述;
452
453 3) 问题状态(处理中)。
454
455 6.6.4 关联已知问题
456
457 问题专家关联已知问题,需要记录信息包括:
458
459 1) 问题描述;
460
461 2) 关联已知问题编号;
462
463 ===== **6.7.问题解决** =====
464
465 根据问题分析的根本原因,提供问题解决方案或变通措施,参见图表 1-5 问题解决流程图
466
467 [[image:微信图片_20240708151820.png]]
468
469
470 **6.7.1 搜索已有解决方案**
471
472 问题专家搜索已有的解决方案,判断已有的解决方案能否解决问题。如果已有解决方案能解决问题,则转入(1.5.2),否则转入(1.5.4)尝试解决。需要记录的信息包括:
473
474 1) 问题解决方案;
475
476 2) 问题状态(处理中)。
477
478 **6.7.2 发起变更流程解决问题**
479
480 问题专家分析问题的解决办法,判断实施解决方案是否对生产系统产生影响。如果对生产系统有影响,则转入变更管理进行变更请求与解决。
481
482 创建变更请求需要记录的信息包括:
483
484 1) 问题解决方案;
485
486 2) 创建变更单;
487
488 3) 问题状态(等待);
489
490 **6.7.3 尝试解决**
491
492 如果已有的解决方案不能解决现有问题,问题专家就要尝试解决问题。如果问题专家认为可以解决,则转入(1.5.2)开始解决问题,否则转入(1.5.3)问题经理重新分配问题。
493
494 **6.7.4 解决问题**
495
496 问题专家制定完成问题解决方案后,开始实施问题解决方案。问题解决后,按(1.6)关闭事件。
497
498 记录的信息包括:
499
500 1) 处理人;
501
502 2) 实际开始时间;
503
504 3) 实际完成时间;
505
506 4) 问题解决方案;
507
508 5) 事件状态(已解决);
509
510 **6.7.5 重新分配**
511
512 对于问题专家不能解决的问题,问题经理要重新分配。
513
514 如果问题经理分析认为其他的问题专家可以解决此问题,则转入(1.3.4)重新分配问题。
515
516 如果问题经理判断没必要解决此问题,则转入(1.6.2)填写关闭代码。
517
518 ===== **6.8.问题关闭** =====
519
520 问题关闭过程是问题得到解决后,应该遵循问题关闭的具体过程,下图是问题关闭的流程图
521
522 [[image:微信图片_20240708151951.png]]
523
524
525 **6.8.1 验证问题解决结果**
526
527 在问题的解决方案得到实施后,发起问题的问题分析员对实施结果进行验证,以确认问题得到妥善解决。
528
529 如果问题分析员判断问题是正常解决并且有价值,更新知识库,转入(3.6.2)填写关闭代码。
530
531 如果问题是通过变通方法解决,问题分析员判断是否接受,否则重新分配问题。
532
533 **6.8.2 填写关闭代码**
534
535 问题关闭代码如下表所示:
536
537 [[image:微信图片_20240708152040.png]]
538
539 该阶段应该记录的信息包括:
540
541 1) 描述信息;
542
543 2) 问题预关闭时间;
544
545 3) 问题关闭状态;
546
547 **6.8.3 关闭工单**
548
549 关闭后的问题即为“已知错误”,在问题被关闭的同时将问题以及相应的解决方案应用到事件管理流程当中。
550
551 该阶段应该记录的信息包括:
552
553 1) 问题关闭时间;
554
555 2) 问题关闭状态(已关闭)。
556
557 ===== **6.9.问题监视** =====
558
559 问题在创建后,问题经理应对对这些问题的状态进行监视,如下图所示:
560
561 [[image:微信图片_20240708152125.png]]
562
563
564 **6.9.1 定期确认问题状态**
565
566 **问题经理负责定期确认和跟踪问题的处理状态。**
567
568 **6.9.2 发送提醒**
569
570 问题管理流程中,具体问题处理一般不对解决时限作严格的时间要求。但为保证问题得到必要的重视,问题经理将根据问题的优先级别,通过短信/Email方式定期提醒问题分析员。
571
572
573 === **7.工单状态迁移表** ===
574
575 **[[image:微信图片_20240708152229.png]]**
576
577
578 === **8. 问题管理过程的 KPI** ===
579
580 为保证问题管理过程更好的得到执行,定义以下关键指标。问题管理经理应每半年度对所定义的指标进行统计和分析。
581
582 特别说明:问题管理过程涉及到对内对外服务的 KPI 指标,部分指标仅适用于内部服务。
583
584 1) 每一类问题数量占问题总量的比例(%)
585
586 了解 IT 基础设施在哪些方面(网络、服务器等)存在问题较多
587
588 2) 问题成功得到解决的比例(%)
589
590 在一定时间范围内,成功得到关闭的问题数量占总问题量的百分比
591
592 3) 优先级为高的问题所占比例(%)
593
594 当前处理的任务中,有多少是优先级最高的问题,代表着 IT 基础架构和管理中的薄弱环节
595
596 4) 已处理问题的平均时间统计
597
598 成功得到关闭的问题平均处理时间,了解问题整体处理的效率。
599
600 5) 申请变更的问题~(%)
601
602 统计问题处理过程中涉及到 CI 变更的问题比例
603
604 6) 各类别重复问题~(%)
605
606 统计各类问题处理过程中问题为重复问题占总问题数量的百分比
607
608 7) 已知错误问题~(%)
609
610 统计问题处理过程中问题为已知错误问题占总问题数量的百分比
611
612
613
深圳市艾拓先锋企业管理咨询有限公司