From version < 4.1 >
edited by superadmin
on 2021/12/16, 22:57
To version < 7.1 >
edited by superadmin
on 2021/12/16, 23:03
< >
Change comment: There is no comment for this version

Summary

Details

Icon Page properties
Content
... ... @@ -25,6 +25,10 @@
25 25  
26 26  ----
27 27  
28 +{{box cssClass="floatinginfobox" title="**Contents**"}}
29 +{{toc/}}
30 +{{/box}}
31 +
28 28  = **1 关于本文件** =
29 29  
30 30  本文档提供事件管理实践实用指南。分为五个主要部分,内容包括:
... ... @@ -36,10 +36,9 @@
36 36  * 对实践的合作伙伴和供应商的考虑。
37 37  
38 38  
43 +
39 39  == **1.1 ITIL®4 认证方案** ==
40 40  
41 - [[image:file:///C:\Users\19805\AppData\Local\Temp\ksohtml\wps87EB.tmp.png]]
42 -
43 43  本文档的部分内容可以作为以下教学大纲的一部分以供检查:
44 44  
45 45  * ITIL专家:创建、交付和支持
... ... @@ -62,7 +62,6 @@
62 62  )))
63 63  |事件管理实践的目的是尽快恢复正常的服务运作,以尽量减少事件的负面影响。
64 64  
65 -
66 66  规范的服务运维通常是在服务级别协议(SLA)定义,或在服务质量规范的其他形式中定义的,因为这可以是服务提供者在内部达成的协议。规范可以包含比最初与客户达成的协议更多的质量准则。因此,事件管理实践包括恢复服务和资源的正常运行,即使服务使用者看不到它们的失效或偏差。在这种情况下,日常运维操作在配置项(CI)或服务技术规范中定义。但是,如果没有日常运维的书面规范,则可以使用专家意见来评估资源和服务的状况。如果需要,可以使用事件管理实践来纠正有故障的资源或服务。
67 67  
68 68  事件管理实践是服务管理的基本元素。服务的快速恢复是用户和客户满意、服务提供者的信誉,以及组织在服务关系中创建价值的关键因素。
... ... @@ -69,12 +69,11 @@
69 69  
70 70  
71 71  
72 -== ​​​​​​​2.2 **术语和概念** ==
74 +== **​​​​​​​2.2** **术语和概念** ==
73 73  
74 74  |**事件**
75 75  |服务的计划外中断或服务质量的降低。
76 76  
77 -
78 78  事件管理实践确保将计划外的服务不可用或降级的时间减至最少,从而减少对用户的负面影响。有两个主要因素可以实现这一点:早期的事件检测和快速恢复正常的运维。
79 79  
80 80  借助有效、高效的流程,自动化工具和供应商关系以及技术精湛且积极进取的专家团队,可以快速检测和解决事件。服务管理四维模型的资源被整合以形成事件管理实践。
... ... @@ -86,12 +86,12 @@
86 86  
87 87  尽管有些事件在服务运营和消费方面的影响相对较低,但其他事件却给服务消费者和服务提供者带来了严重后果,这些被称为重大事件,需要特别注意。
88 88  
90 +
89 89  |(((
90 -**定义:重大事件**
92 + **定义:重大事件**
91 91  )))
92 92  |具有重要业务影响的事件,需要立即协调解决。
93 93  
94 -
95 95  重要的业务影响并不是重大事件的唯一特征。例如,当有多个为高可用性设计的系统和服务时,单个故障不太可能导致严重的业务影响。故障将迅速且通常是自动检测并修复。重大事件通常与更高级别的复杂性相关。例如,如果多个看似微不足道的事件同时发生,则可能会升级并对服务使用者产生影响。诸如此类的复杂事件需要一些特殊的管理和解决方法。实施一个模型来管理所有事件将是有益的,尽管重大事件很少发生且通常具有不同的性质。重大事件的模型可能包括:
96 96  
97 97  * 清晰的准则,以区分重大事件与灾难及其他事件
... ... @@ -108,7 +108,6 @@
108 108  )))
109 109  |当事件或者问题无法彻底解决,而采取减少或消除事件或问题影响的变通解决方案。一些变通方案还可以降低事件发生的可能性。
110 110  
111 -
112 112  有时,可能找不到事件的系统性解决方案。在这些情况下,服务提供者可以应用变通方案。
113 113  
114 114  变通方案可以立即将服务恢复到可接受的质量。但是,变通方案可能会增加技术债务,并可能在将来导致新的事件。问题管理实践可用于减少事件解决方法创建的技术债务。在许多情况下,了解事件的原因可以帮助找到最佳解决方案。
... ... @@ -120,8 +120,9 @@
120 120  |因选择变通方案而非系统性解决方案(需要花费更长时间),而累计的返工总量
121 121  
122 122  
123 -== ​​​​​​​2.3 **范围** ==
124 124  
124 +== **​​​​​​​2.3 范围** ==
125 +
125 125  事件管理实践的范围包括:
126 126  
127 127  * 发现和登记事件
... ... @@ -157,14 +157,14 @@
157 157  |灾难情况下,恢复正常操作|服务连续性管理
158 158  
159 159  
160 -== ​​​​​​​2.4 **实践成功因素** ==
161 161  
162 +== **​​​​​​​2.4** **实践成功因素** ==
163 +
162 162  |(((
163 163  **实践成功因素**
164 164  )))
165 165  |相关联的一组事务的协同工作机制,是实践活动实现其目的所必需的。
166 166  
167 -
168 168  实践的成功因素(PSF)不仅仅是一项任务或活动,它包括服务管理四维模型的所有功能组件。在一项实践中,PSFs活动和资源的性质可能不同,但这些资源和活动共同确保实践有效。
169 169  
170 170  事件管理实践包括以下PSFs:
... ... @@ -174,6 +174,7 @@
174 174  * 不断改进事件管理方法。
175 175  
176 176  
178 +
177 177  === **2.4.1 尽早发现事件** ===
178 178  
179 179  以前,实践通常是根据最终用户和IT专家的信息来报告大多数事件的。这种获取信息的方法仍被广泛使用,但是现在一个好的实践建议是自动发现和报告事件。可以在事件发生后和开始影响用户之前立即被发现。这种方法具有多种好处,其中包括:
... ... @@ -203,7 +203,6 @@
203 203  |**全功能团队**
204 204  |解决各种复杂任务的技术方法。在全功能团队中,具有不同专业知识领域的多个人员一起完成一项任务,直到明确哪些能力最相关和最需要。
205 205  
206 -
207 207  通常,全功能团队有助于降低复杂度,使其可以切换到低复杂性环境中使用的技术。但是,全功能团队通常适用于性质未知的重大事件。在这种情况下,与仍未解决的事件造成的损失相比,将大量专用资源集中在一起更具有成本效益。
208 208  
209 209  全功能团队不需要举行实际会议。建立计划后,专家可能会独自工作以完成实验,设计脚本,并使用其他工具来发现正在发生的事情。为了应对这一事件,全功能团队使用正确的人员,而不是大量的人员。
... ... @@ -221,6 +221,7 @@
221 221  * 机器学习的可能性和质量。
222 222  
223 223  
225 +
224 224  ==== **2.4.2.1 事件的优先级** ====
225 225  
226 226  事件应尽快解决。但是,参与事件解决的团队的资源是有限的,并且这些团队通常同时参与其他类型的工作。应该优先处理某些事件,以最大程度地减少对用户的负面影响。
... ... @@ -259,8 +259,9 @@
259 259  全面描述采取行动的原因与描述行动本身同样重要。
260 260  )))
261 261  
264 +(% class="wikigeneratedid" %)
262 262  
263 -== ​​​​​​​2.5 **关键指标** ==
266 +== **​​​​​​​2.5 关键指标** ==
264 264  
265 265  应该基于每个实践对价值流的贡献来评估ITIL实践的有效性和绩效。与任何工具的绩效一样,实践的绩效只能在其应用情境中评估。工具在设计和质量上可能会有很大差异,按照工具的用途使用时,这些差异定义了工具有效性的潜力或能力。关于度量标准,关键绩效指标(KPI)和其它技术的进一步指导,请参见度量和报告实践指南。
266 266  
... ... @@ -311,7 +311,7 @@
311 311  = **3 价值流和流程** =
312 312  
313 313  
314 -== ​​​​​​​3.1 **价值流贡献** ==
317 +== ​​​​​​​**3.1** **价值流贡献** ==
315 315  
316 316  像任何其他ITIL管理实践一样,事件管理实践对多条价值流有帮助。重要的是要记住,价值流不是由单一实践形成的。例如,即使当价值流专注于事件解决时,也会涉及其他实践,例如服务台、监控和事态管理、服务配置管理、变更支持、供应商管理、基础设施和平台管理以及软件开发和管理。
317 317  
... ... @@ -323,7 +323,6 @@
323 323  * 改进
324 324  * 获取或构建。
325 325  
326 -
327 327  事件管理实践对服务价值链的贡献如图3.1所示。
328 328  
329 329  (% style="text-align:center" %)
... ... @@ -332,7 +332,7 @@
332 332  图3.1 事件管理实践对价值链活动的贡献热力图
333 333  
334 334  
335 -== ​​​​​​​3.2 **流程** ==
337 +== **​​​​​​​3.2 流程** ==
336 336  
337 337  每个实践可以包含一个或多个过程和活动,这是实现这一实践目的所必需的。
338 338  
... ... @@ -342,7 +342,6 @@
342 342  )))
343 343  |将输入转换为输出的一组相互关联或相互作用的活动。过程接受一个或多个已定义的输入,并将其转换为已定义的输出。过程定义操作的顺序及依赖关系。
344 344  
345 -
346 346  事件管理活动分为两个流程:
347 347  
348 348  * **事件的处理和解决**。该流程的重点是从发现到关闭的单个事件的处理和解决。
... ... @@ -349,6 +349,7 @@
349 349  * **定期事件评审**。该流程确保从事件处理和解决的过程中吸取教训,并确保持续改进事件管理的方法。
350 350  
351 351  
353 +
352 352  === **3.2.1 事件处理和解决** ===
353 353  
354 354  该过程包括表3.1中列出的活动,并将输入转换为输出。
... ... @@ -369,7 +369,6 @@
369 369  |(% style="width:254px" %)问题记录|(% style="width:119px" %) |(% style="width:177px" %)
370 370  |(% style="width:254px" %)知识库|(% style="width:119px" %) |(% style="width:177px" %)
371 371  
372 -
373 373  图3.2展示事件处理和解决的工作流程图。
374 374  
375 375  
... ... @@ -386,14 +386,15 @@
386 386  
387 387  表3.2 事件处理和事件解决过程的活动
388 388  
389 -|**活动**|**手动处理用户发现的事件**|**自动发现和处理事件**
390 -|事件发现|用户发现服务运营中的故障,并通过约定的渠道与服务提供者的服务台联系。服务台客服对该用户问询进行初始分类,确认该问询确实属于事件。|监控系统检测到事态,并基于预定义的分类将其标识为事件。
391 -|事件登记|服务台客服执行事件登记,将有效数据添加到事件记录中。|登记事件记录并将其与发现事态的CI关联。登记预定义的技术参数。必要时,给相关技术专家发送通知。
392 -|事件分类|(((
390 +(% style="width:1010px" %)
391 +|(% style="width:85px" %)**活动**|(% style="width:439px" %)**手动处理用户发现的事件**|(% style="width:484px" %)**自动发现和处理事件**
392 +|(% style="width:85px" %)事件发现|(% style="width:439px" %)用户发现服务运营中的故障,并通过约定的渠道与服务提供者的服务台联系。服务台客服对该用户问询进行初始分类,确认该问询确实属于事件。|(% style="width:484px" %)监控系统检测到事态,并基于预定义的分类将其标识为事件。
393 +|(% style="width:85px" %)事件登记|(% style="width:439px" %)服务台客服执行事件登记,将有效数据添加到事件记录中。|(% style="width:484px" %)登记事件记录并将其与发现事态的CI关联。登记预定义的技术参数。必要时,给相关技术专家发送通知。
394 +|(% style="width:85px" %)事件分类|(% style="width:439px" %)(((
393 393  服务台客服完成事件初始分类;这有助于确定事件的影响,确定为失效CI和/或服务确定责任团队,并将事件关联到其他过去和正在处理的事态,事件和/或问题。
394 394  
395 395  在某些情况下,分类有助于找到以前为此类事件定义的解决方案。
396 -)))|(((
398 +)))|(% style="width:484px" %)(((
397 397  根据预定义的规则,将自动发现:
398 398  
399 399  * 事件对服务和用户的影响
... ... @@ -400,19 +400,19 @@
400 400  * 可用的解决方案
401 401  * 如果自动化解决方案无效或不可用,找到负责事件解决的技术团队。
402 402  )))
403 -|事件诊断|(((
405 +|(% style="width:85px" %)事件诊断|(% style="width:439px" %)(((
404 404  如果分类没有关联到已知解决方案,
405 405  
406 406  专家团队开展事件诊断。这可能涉及将事件升级到不同团队,或其他联合技术团队加入(如全功能团队)。
407 407  
408 408  如果由于配置项关联错误而导致分类错误,则应将此信息传达给负责配置管理的人员(请参阅服务配置实践指南)。
409 -)))|(((
411 +)))|(% style="width:484px" %)(((
410 410  如果自动解决方案无效或不可用,则将事件上报给负责诊断的技术团队。可能涉及事件升级到不同团队,或其他技术团队加入(如全功能团队)。
411 411  
412 412  如果由于配置项关联错误而导致自动化解决方案失败,则应将此信息传达给负责配置管理的人员(请参阅服务配置实践指南)。
413 413  )))
414 -|事件解决|找到解决方案后,相关专家团队将尝试按顺序或并行工作方式执行,这可能需要启动变更。如果解决方案不起作用,则再次诊断。|如果有可用的自动化解决方案,则实施它,并完成测试和确认。如果需要手动干预,则相关的专业团队尝试实施,这可能需要启动变更。如果解决方案不起作用,则再次诊断。
415 -|事件关闭|(((
416 +|(% style="width:85px" %)事件解决|(% style="width:439px" %)找到解决方案后,相关专家团队将尝试按顺序或并行工作方式执行,这可能需要启动变更。如果解决方案不起作用,则再次诊断。|(% style="width:484px" %)如果有可用的自动化解决方案,则实施它,并完成测试和确认。如果需要手动干预,则相关的专业团队尝试实施,这可能需要启动变更。如果解决方案不起作用,则再次诊断。
417 +|(% style="width:85px" %)事件关闭|(% style="width:439px" %)(((
416 416  成功解决事件之后,可能需要一些正式的关闭过程:
417 417  
418 418  * 用户确认服务恢复
... ... @@ -422,9 +422,10 @@
422 422  * 事件评审
423 423  
424 424  完成所有必需的操作并更新了相应地事件记录后,事件正式关闭。这可以由产品负责人,服务负责人,事件经理或服务台客服完成,具体取决于商定的事件模型。
425 -)))|如果自动解决方案证明有效,则事件记录将自动更新并关闭。发送报告给负责的技术团队。如果在先前的任何步骤中已将有关事件的信息传达给其他利益相关者,则应向其传达事件关闭的信息。
427 +)))|(% style="width:484px" %)如果自动解决方案证明有效,则事件记录将自动更新并关闭。发送报告给负责的技术团队。如果在先前的任何步骤中已将有关事件的信息传达给其他利益相关者,则应向其传达事件关闭的信息。
426 426  
427 427  
430 +
428 428  === **3.2.2 定期事件评审** ===
429 429  
430 430  该流程的重点是持续改进事件管理实践,事件模型和事件处理程序。它可以定期执行,也可以由事件报告触发,该报告突显低效率和其他改进点机会。根据现有模型和程序的效果,每两到三个月或更短时间进行一次定期检查。
... ... @@ -451,7 +451,6 @@
451 451  |(% style="width:297px" %)连续性策略和计划|(% style="width:233px" %) |(% style="width:207px" %)
452 452  |(% style="width:297px" %)安全策略和计划|(% style="width:233px" %) |(% style="width:207px" %)
453 453  
454 -
455 455  图3.3 展示事件评审的工作流程图。
456 456  
457 457  
... ... @@ -477,13 +477,12 @@
477 477  
478 478  
479 479  
480 -
481 481  ----
482 482  
483 483  = **4 组织和人员** =
484 484  
485 485  
486 -== ​​​​​​​4.1 **角色,能力和责任** ==
487 +== ​​​​​​​**4.1 角色,能力和责任** ==
487 487  
488 488  实践指南不描述实践管理角色,如实践所有者、实践负责人或实践教练。相反,指南关注特定于每个实践的专家角色。每个角色的结构和命名可能因组织而异,因此不应强制,甚至不应推荐ITIL中定义的任何角色。记住,角色并非职位头衔。一个人可担任多个角色,一个角色也可以分配给多个人员。
489 489  
... ... @@ -500,6 +500,7 @@
500 500  |Т|**技术专家**提供技术(IT)专业知识并执行基于专家经验的作业
501 501  
502 502  
504 +
503 503  === **4.1.1 事件经理角色** ===
504 504  
505 505  在许多组织中,事件经理角色由专人担任,有时授予事件经理的职衔。在其他组织中,事件经理的责任由负责与事件关联的配置项,服务或产品的人员或团队承担;他可能是资源所有者,服务负责人或产品负责人。
... ... @@ -622,7 +622,6 @@
622 622  )))|CA|熟悉沟通程序和沟通工具
623 623  
624 624  
625 -
626 626  == **​​​​​​​4.2** **组织结构和团队** ==
627 627  
628 628  事件管理实践不推荐任何特定的组织模型。但是,组织结构会影响实践的执行方式,因为它涉及具有不同领域和专业水平的专家。专家分组的典型方法包括:
... ... @@ -653,7 +653,6 @@
653 653  )))
654 654  
655 655  
656 -
657 657  === **4.2.2 团队动力** ===
658 658  
659 659  事件管理实践是团队动力的基础,它们影响着运维支持团队的职责履行。经常出现以下问题:
... ... @@ -687,7 +687,7 @@
687 687  = **5 信息和技术** =
688 688  
689 689  
690 -== ​​​​​​​5.1 **信息沟通** ==
690 +== **​​​​​​​5.1** **信息沟通** ==
691 691  
692 692  事件管理实践的有效性取决于所用信息的质量。这包括但不限于以下信息:
693 693  
... ... @@ -738,6 +738,7 @@
738 738  |分派|事件的个人或团队所有者|
739 739  
740 740  
741 +
741 741  == **​​​​​​​5.2** **自动化和工具** ==
742 742  
743 743  事件管理实践应该是自动化的。在可行且有效的情况下,可能涉及表5.2中概述的解决方案。
... ... @@ -792,6 +792,7 @@
792 792  
793 793  
794 794  
796 +
795 795  ----
796 796  
797 797  = **6 合作伙伴和供应商** =
深圳市艾拓先锋企业管理咨询有限公司