Changes for page 服务管理实践 - 05 监控和事态
Last modified by superadmin on 2024/12/25, 15:38
Summary
-
- 1642237641108-965.png
- 1642237710166-351.png
- 1642237738910-108.png
- 1642237833826-395.png
- 1642237866153-106.png
- 1642237945213-442.png
- 1642237990168-323.png
- 1642238024237-336.png
- 1642238049838-958.png
- 1642238202293-164.png
- 1642238225338-195.png
- 1642238253882-729.png
- 1642238337737-961.png
- 1642238364744-334.png
- 1642238421478-919.png
- 1642238466365-934.png
- 1642238480595-735.png
- 1642238606576-143.png
Details
- Page properties
-
- Title
-
... ... @@ -1,1 +1,1 @@ 1 -05 监控和事态管理 实践1 +05 监控和事态管理(尚未发布) - Content
-
... ... @@ -1,15 +1,27 @@ 1 -如有[[ITIL认证>>url:http://www.itilchina.cn/achotsao/vip_doc/13354653.html]]、[[ITIL培训>>url:http://www.itilchina.cn/achotsao/vip_doc/13354653.html]]或[[ITIL考试>>url:http://www.itilchina.cn/achotsao/vip_doc/13354653.html]]需求,可[[点击了解详情>>url:http://www.itilchina.cn/achotsao/vip_doc/13354653.html]] 1 +(% class="jumbotron" %) 2 +((( 3 +(% class="container" %) 4 +((( 5 += = 2 2 3 3 4 -**申明:** 5 5 6 -本系列ITIL 4中文版本由长河领导的ITIL先锋论坛专家委员会组织翻译,国内众多从事ITIL理论推广及落地实践的专家们参与。需要下载最新翻译版本请关注微信公众号:ITILXF,并回复“**监控和事态管理**”即可。 7 7 8 -{{box cssClass="floatinginfobox" title="**Contents**"}} 9 -{{toc/}} 10 -{{/box}} 11 11 11 + 12 +))) 13 +))) 12 12 15 + 需要下载 **ITIL 4监控和事态管理实践【中文】**pdf版全文,请关注微信公众号itilxf ,并回复“监控和事态”即可。 16 + 17 +[[image:微信截图_20210206234644.png]] 18 + 19 + 20 +**申明:** 21 + 22 +本系列ITIL 4实践中文版本由ITIL先锋论坛专家委员会组织翻译,国内众多从事ITIL理论推广及落地实践的专家们参与,需要下载最新翻译版本请关注微信公众号:ITILXF,也可访问ITIL4中文知识库网站:itil4hub.cn。 23 + 24 + 13 13 请注意,ITIL先锋论坛专家团队仅仅只是进行了这些著作的语种转换工作,我们并不拥有包括原著以及中文发行文件的任何版权,所有版权均为Axoles持有,读者在使用这些文件(含本中文翻译版本)时需完全遵守Axoles 和 TSO所申明的所有版权要求。 14 14 15 15 ... ... @@ -33,6 +33,7 @@ 33 33 * 支持监控和事态管理的信息和技术 34 34 * 合作伙伴和供应商对监控和事态管理的思考 35 35 48 + 36 36 == **1.1** **ITIL®4 认证体系** == 37 37 38 38 本文件所选内容可作为以下教学大纲的一部分进行考查: ... ... @@ -48,13 +48,11 @@ 48 48 49 49 = **2 一般信息** = 50 50 51 - 52 52 == **2.1 目的和描述** == 53 53 54 54 55 55 监控和事态管理实践的目的是系统地观察服务和服务组件,将其状态变化识别为事态并进行记录和报告。该实践识别基础设施、服务、业务流程和信息安全等事态,确定其优先级,建立对这些事态的适当响应,包括对可能导致潜在故障或事件的条件作出响应。 56 56 57 - 58 58 |((( 59 59 **事态** 60 60 ... ... @@ -96,9 +96,9 @@ 96 96 97 97 监控通过多种不同的方式得以实现。配置项(CIs)可以通过轮询(即响应监控工具收集特定目标数据的请求)或通过在满足某些条件时自动通知监控工具来共享有关其自身的信息。监控工具对服务组件的询问代表着主动监控,而配置项(CIs)向监控工具发送的通知代表着被动监控。 98 98 99 -(% style="text-align:center" %) 100 100 [[image:图片1.png]] 101 101 112 +[[image:file:///C:\Users\19805\AppData\Local\Temp\ksohtml15296\wps3.jpg]] 102 102 103 103 图2.1 监控的类型 104 104 ... ... @@ -111,7 +111,6 @@ 111 111 112 112 尽管监控和事态管理传统上专注于服务的技术组件,但对了解其他服务管理资源和活动(包括流程,人员和供应商)的状态也很有用。 113 113 114 - 115 115 |((( 116 116 **指标** 117 117 ... ... @@ -126,6 +126,7 @@ 126 126 * 第三方服务绩效指标(基于商定的服务级别) 127 127 * 操作、流程和价值流绩效指标 128 128 139 + 129 129 |((( 130 130 **阈值** 131 131 ... ... @@ -147,6 +147,7 @@ 147 147 * 一小时内出现X个以上磁盘错误 148 148 * CPU利用率达到或超过N%三次,任何两个连续事态之间的间隔小于Z秒 149 149 161 + 150 150 |((( 151 151 **警报** 152 152 ... ... @@ -189,14 +189,13 @@ 189 189 190 190 尽管有些活动和责任领域仍然与监控和事态管理实践密切相关,但它们并没有被包含其中。表2.1中列出了它们以及那些包含了它们的实践的相关引用。重要的是要记住,ITIL实践只是那些在价值流环境中被使用的工具的集合,应根据情况进行必要的组合。 191 191 192 -(% style="width:476px" %) 193 -|(% style="width:320px" %)活动|(% style="width:153px" %)实践指南 194 -|(% style="width:320px" %)事件的管理|(% style="width:153px" %)事件管理 195 -|(% style="width:320px" %)事态和趋势的原因调查|(% style="width:153px" %)问题管理 196 -|(% style="width:320px" %)响应事态的变更管理|(% style="width:153px" %)变更支持 197 -|(% style="width:320px" %)与用户沟通|(% style="width:153px" %)服务台 198 -|(% style="width:320px" %)基于监控数据的决策支持|(% style="width:153px" %)度量和报告 199 -|(% style="width:320px" %)设置服务质量和性能的目标和阈值|(% style="width:153px" %)((( 204 +|活动|实践指南 205 +|事件的管理|事件管理 206 +|事态和趋势的原因调查|问题管理 207 +|响应事态的变更管理|变更支持 208 +|与用户沟通|服务台 209 +|基于监控数据的决策支持|度量和报告 210 +|设置服务质量和性能的目标和阈值|((( 200 200 服务级别管理 201 201 202 202 可用性管理 ... ... @@ -207,12 +207,12 @@ 207 207 208 208 连续性管理 209 209 ))) 210 -| (% style="width:320px" %)设置基础设施和应用程序组件的阈值|(% style="width:153px" %)(((221 +|设置基础设施和应用程序组件的阈值|((( 211 211 基础设施和平台管理 212 212 213 213 软件开发和管理 214 214 ))) 215 -| (% style="width:320px" %)设定第三方服务的目标和门槛|(% style="width:153px" %)供应商管理226 +|设定第三方服务的目标和门槛|供应商管理 216 216 217 217 表2.1其他实践指南中描述的与监控和事态管理相关的活动 218 218 ... ... @@ -228,8 +228,9 @@ 228 228 * 确保及时,相关且足够的监控数据提供给相关的利益相关者 229 229 * 确保发现、解释事态,并在需要时尽快采取措施 230 230 231 -=== **2.4.1 建立和维护描述各类事态和探测它们所需的监控功能的方法/模型** === 232 232 243 +=== 2.4.1 建立和维护描述各类事态和探测它们所需的监控功能的方法/模型 === 244 + 233 233 在大多数情况下,现代技术为度量和监控服务以及服务组件操作的各个方面提供了机会,但是从业人员应认真管理监控的范围以及度量指标的频率和数量。现代监控和事态管理实践的主要挑战不是缺少数据,而是监控必须处理的数据的规模。监控和事态管理实践的重点应该是获取有意义的信息,以支持服务的操作与改进,决策和价值的创造。建立或改进监控和事态管理实践时,应考虑以下方面: 234 234 235 235 * 识别所监控的服务和服务组件并划分优先级 ... ... @@ -265,7 +265,7 @@ 265 265 许多IT 监控工具和EMS本身很可能由第三方供应商提供,监控和事态管理实践和供应商管理实践将保持稳定的工作关系。 266 266 267 267 268 -=== **2.4.2 确保将及时,相关且足够的监控数据提供给相关的利益相关者**===280 +=== 2.4.2 确保将及时,相关且足够的监控数据提供给相关的利益相关者 === 269 269 270 270 当根据原始服务设计和与客户达成的服务级别协议(SLA)进行基准校对时,监控和事态管理的报告能够使服务提供者的实际操作性能和行为基本真实。监控和事态管理提供了直接的观察结果、基于事实的经验证据,而不是预期或期望的结果。 271 271 ... ... @@ -274,7 +274,7 @@ 274 274 监控和事态管理确定了薄弱区域,因此可以采取补救行动(如果有正当的业务案例),以改进将来的服务质量。监控和事态管理还可以显示客户动作在哪里导致故障,并确定工作效率和/或培训可以在哪些地方得到改善。监控和事态管理还可以同时处理内部和外部供应商,因为他们的绩效必须得到评估和管理。 275 275 276 276 277 -=== **2.4.3 确保探测、解释事件,并在需要时尽快采取措施**===289 +=== 2.4.3 确保探测、解释事件,并在需要时尽快采取措施 === 278 278 279 279 仅仅为监控和事态管理定义规则还不够,事态的实际探测和处理程序才能使这些规则有价值。事态管理的效率和范围在很大程度上取决于服务架构和服务管理自动化水平。在数字化基础设施和现代应用程序中,许多用于监控和事态管理的工具是内置的,实践的重点是事态处理规则的集成和调整。 280 280 ... ... @@ -293,18 +293,17 @@ 293 293 294 294 监控和事态管理实践的关键指标已映射到其实践成功因素(PSF)。它们可以用作价值流环境中的KPI,以评估监控和事态管理实践对那些价值流的效果和效率的贡献。表2.2中给出了一些关键指标的示例。 295 295 296 -(% style="width:923px" %) 297 -|(% style="width:503px" %)**实践成功因素**|(% style="width:418px" %)**指标样例** 298 -|(% style="width:503px" %)建立和维护描述各类事态的方法/模型以及检测这些事态所需要的监控能力|(% style="width:418px" %)((( 308 +|**实践成功因素**|**指标样例** 309 +|建立和维护描述各类事态的方法/模型以及检测这些事态所需要的监控能力|((( 299 299 * 利益相关者对监控和事态管理方法的满意度 300 300 * 组织对方法的坚持 301 301 * 未遵循或发现不切实际的方法建议/要求的百分比 302 302 ))) 303 -| (% style="width:503px" %)确保向利益相关者提供及时、相关和充分的监控数据|(% style="width:418px" %)(((314 +|确保向利益相关者提供及时、相关和充分的监控数据|((( 304 304 * 利益相关者对监控数据及其表述的满意度 305 305 * 监控数据的质量(根据商定的数据质量标准) 306 306 ))) 307 -| (% style="width:503px" %)确保检测、解释事件,并在需要时尽快采取措施|(% style="width:418px" %)(((318 +|确保检测、解释事件,并在需要时尽快采取措施|((( 308 308 * 事态管理错误的影响 309 309 * 事态交流“噪音”的数量和影响 310 310 * 因为事态管理不善而无法预防或解决的事件和问题的影响 ... ... @@ -327,13 +327,13 @@ 327 327 328 328 图3.1中显示了监控和事态实践对服务价值链的贡献。 329 329 341 +[[image:file:///C:\Users\19805\AppData\Local\Temp\ksohtml15296\wps8.png]] 330 330 331 -(% style="text-align:center" %) 332 -[[image:微信截图_20210217171257.png]] 333 - 334 334 图3.1 监控和事态管理实践对价值链活动的贡献的热力图。 335 335 345 +[[image:微信截图_20210217171257.png]] 336 336 347 + 337 337 监控和事态管理实践贡献的主要价值链活动是: 338 338 339 339 * 交付和支持 ... ... @@ -340,6 +340,7 @@ 340 340 * 设计和转换 341 341 * 改进 342 342 354 + 343 343 == **3.2 流程** == 344 344 345 345 每个实践可包含一个或多个为实现该实践的目的而可能需要的流程和活动。 ... ... @@ -350,6 +350,7 @@ 350 350 * **事态处理流程** 351 351 * **监控和事态管理评审 **安排和触发该流程是为了评审主要事态事后分析、有关过滤和相关性分析的更新、服务“运行状况模型”、以及用于监控自动化和操作的改进。 352 352 365 + 353 353 === **3.2.1 监控规划** === 354 354 355 355 |**关键输入**|**活动**|**关键输出** ... ... @@ -392,66 +392,187 @@ 392 392 表3.1 监控规划流程的输入、活动和输出 393 393 394 394 395 - 396 -(% style="text-align:center" %) 397 397 [[image:图片3.png]] 398 398 399 399 图3.2 监控规划流程的工作流程 400 400 401 401 413 +表3.2监控规划流程的活 402 402 403 -表3.2监控规划流程的活动 415 +|**活动**|**描述** 416 +|定义监控目标|((( 417 +利用从服务设计阶段、服务验证和测试实践以及服务开发(可用性,容量和性能管理实践)和服务级别管理实践收到的信息,团队定义监控的关键目标。 404 404 405 - [[image:1642237641108-965.png]]419 +该讨论应覆盖功效需求到功用需求(首先涵盖最明显的功能要求,例如,在应用程序的用户案例中)。另外,从关键服务性能到更多详细信息和组件,它的颗粒度应增加。 406 406 407 -[[image:1642237710166-351.png]] 421 +团队应列出一个优先级降序的监控列表。 422 +))) 423 +|评估可用的度量监控标准|((( 424 +然后,将监控优先级列表项映射或转换为可用度量或基于可用度量的综合度量。 408 408 409 -[[image:1642237738910-108.png]] 426 +应该探索添加度量值。 427 +))) 428 +|定义监控对象的事态类型|团队对不同类型的事态进行定义和分类。类型可以是一般性的,例如信息性,警告性,异常性,也可以取决于功能,用户组及其优先级,再通过关键监控目标的组件或类型进行划分。 429 +|定义不同事态类型的阈值|((( 430 +团队与服务或组件开发团队一起定义不同类型事态的阈值。相同的组件指标可能是根据现有的SLA和针对服务或组件定义的可用性,容量和性能的要求,它基于服务进行了不同的处理。 410 410 432 +另外,应该将处理吞吐量的事态纳入考量,因为尽管现代IT系统几乎可以探测到任何事态,但不是所有事态都需要进行响应。因此,从最初预防灾难到后来完善组件,通常都应将监控和事态管理进行迭代开发。 433 +))) 434 +|定义服务'运行状况模型'(端到端事态)|((( 435 +根据参与服务设计的团队的输入,构建了一个“运行状况模型”,它反映了服务及其关联的关键事态。一个服务可能有几种模型。 411 411 437 +这些模型使监控团队可以评估服务的用户体验。例如,可以为单个银行客户交易构建模型,并度量从移动应用程序中的请求(包括所有银行数据库系统到移动应用程序中完成交易的通知)花费的时间。 412 412 413 -=== **3.2.2 事态规划** === 439 +服务“运行状况模型”也可以实现为服务健康和性能的报告或仪表板,并由服务所有者,参与其他实践的团队和其他利益相关者临时使用。这样,有关这些服务的信息就被干系人“拉”走了。 440 +))) 441 +|定义事态关联和规则集|((( 442 +与参与服务设计的团队一起,定义事态关联和相应的规则集。 414 414 444 +某些关联可能会使用第二个事态作为对第一个事态的检查,或者进一步过滤事态的范围。同样,已定义的关联可以帮助防止事态同时发生时可能产生的负面协同效应。 445 + 446 +规则集由多个规则组成,这些规则定义了如何处理和评估特定事态的事态消息。例如,每次磁盘日志文件到达其容量时都可能生成警告事态,但是如果已生成四个以上的警告事件,则会生成异常事态。 447 + 448 +规则本身通常嵌入监控和事态处理技术中。它们由布尔类型的算法组成,用于关联已生成的事态,以创建需要传达的其他事态。这些算法可以编入通常称为关联引擎的事态管理软件中。 449 + 450 +人工智能(AI)系统可用于定义用户,管理员,系统等的典型和非典型行为。这可能形成其他检查以过滤事态。 451 +))) 452 +|将事态与行动计划、职能部门和通知对应起来|((( 453 +对于每个事态或事态组,都定义了一个行动计划以尽量减少事态的负面影响。基于行动计划,可以定义响应事态的团队或职能部门。 454 + 455 +行动计划还可以自动执行或半自动执行,包括对某些重要操作进行人工干预。 456 + 457 +在此阶段创建的行动计划成为事态程序和自动化的基础。 458 +))) 459 + 460 + 461 +=== 3.2.2 事态规划 === 462 + 415 415 表3.3事态处理流程的输入、活动和输出 416 416 417 -[[image:1642238606576-143.png]] 465 +|**关键输入**|**活动**|**关键输出** 466 +|((( 467 +* 来自监控对象,监控工具的通知 468 +* 监控计划 469 +)))|((( 470 +* 事态检测 471 +* 事态日志记录 472 +* 事态过滤和相关性检查(可能是迭代的) 473 +* 事态分类 474 +* 事态响应选择 475 +* 发送通知,执行响应规程 476 +)))|((( 477 +* 事态记录 478 +* 已更新的事态统计信息 479 +* 事态响应错误 480 +* 已启动的重大事态事后反思 481 +* 利益干系人通知 482 +* 知识文章更新 483 +* 记录的事件 484 +* 更新的报告和仪表板 485 +))) 418 418 487 + 419 419 图3.3事态处理流程的工作流程 420 420 421 - 422 -(% style="text-align:center" %) 423 423 [[image:图片4.png]] 424 424 492 +[[image:file:///C:\Users\19805\AppData\Local\Temp\ksohtml15296\wps11.jpg]] 425 425 426 426 427 427 表3.4事态处理流程的活动 428 428 429 -[[image:1642237833826-395.png]] 497 +|**活动**|**描述** 498 +|事态检测|((( 499 +监控系统检测到的事态,或作为手动监控的结果。 430 430 431 -[[image:1642237866153-106.png]] 501 +并非所有事态都应被检测到,监控系统带宽也应纳入考量。在现有有限的资源中应仅检测到关键事件和需要采取行动的事态。 502 +))) 503 +|事态记录|事态应该最好自动记录在监控系统中。 504 +|事态过滤和相关性检查(可能是迭代的)|((( 505 +事态应该按照规则集进行处理,以过滤和查找相关性,以实现更好的分类。 432 432 507 +该活动可能是迭代的。 508 +))) 509 +|事态分类|事态分为组或类型,如果需要选择适当的响应,则在组内进一步过滤特定的事态。 510 +|事态响应选择|在监控规划流程中应该为每个事态制定行动计划或响应规程。根据规划中定义的规则,选择事态响应和通知的团队。 511 +|发送通知,执行响应规程|响应规程执行后,将通知负责操作或监督的团队(如果响应规程是全自动的)。 433 433 434 434 514 +|**关键输入**|**活动**|**关键输出** 515 +|((( 516 +* 更新的知识文章 517 +* 重大事态记录 518 +* 重大事件记录 519 +* 改进建议 520 +* 事态记录和统计 521 +* 服务所有者和利益相关者的信息请求 522 +)))|((( 523 +* 评审重大事态和事件 524 +* 评审过滤和相关性分析 525 +* 评审服务“运行状态模式” 526 +* 评估事态的响应程序和自动化程度 527 +* 评审用于数据分析、相关性分析、人工智能(AI)和机器学习(ML)的工具 528 +* 评审监控工具收集的统计信息 529 +)))|((( 530 +* 更新的事态响应程序 531 +* 过滤和相关分析的改进建议 532 +* 针对自动化的变更 533 +* 更新的监控标准和阈值 534 +* 更新的过滤方法 535 +* 更新的被使用的工具和技术清单 536 +* 更新的已提供的报告和统计信息清单 537 +))) 538 + 539 + 435 435 === **3.2.3 监控和事态管理评审** === 436 436 437 -[[image:1642237945213-442.png]] 542 +|活动|描述 543 +|评审重大事态和事件|((( 544 +事实上,重大事件发生通常可能意味着未检测到某些异常服务或组件行为并对其采取行动。因此,重大事态和事件为监控知识发现和改进提供了良好的基础。 438 438 439 - 表3.6 监控和事态管理评审流程的活动546 +应审查和分析重大事态的性质、相关性,并将其分解为组件甚至配置项,并应探索相应的指标,这些指标可能有助于检测导致重大事件的重大事态或异常。 440 440 548 +应探索组件的其他或类似风险,并将已识别的事态添加到监控中。 441 441 550 +建议对监控进行更改以在未来检测类似的事态。 551 +))) 552 +|((( 553 +评审过滤和相关性分析的评审 442 442 555 +评审服务的“运行状态模式” 556 +)))|当监控检测到大量事态或检测不到事态时,应进行过滤和相关性分析。有时可以考虑采取临时措施,例如放宽阈值或事态分组。否则,应进行详细分析和详尽的规则定义,以及建议对监控进行更改。 557 +|评估事态响应程序和自动化程度|((( 558 +应评审因事态响应导致的事件和故障并提出变更建议。 559 + 560 +同样,此评审的目标应是提高事态检测和事态响应的自动化程度。也可以建议其他的自动化。 561 +))) 562 +|评审用于数据分析、相关性分析、人工智能(AI)和机器学习(ML)的工具|((( 563 +应审查内部和市场上可能提高监控效率的工具。应在监控预算内建议试用和试运行。 564 + 565 +另外,此评审应该讨论监控中使用的任何新技术或最佳实践,应该进行市场基准测试的开发,并提出对监控的改进。 566 +))) 567 +|评审监控工具收集的统计信息|((( 568 +应该审查统计信息,以提出对监控的改进,并监控服务。 569 + 570 +服务生命周期涉及的所有团队均应评审检测到的服务趋势。 571 +))) 572 + 573 +**表3.6 监控和事态管理评审流程的活动** 574 + 575 + 576 + 443 443 ---- 444 444 445 -= **4 ****组织和人员** =579 += 4 **组织和人员** = 446 446 447 447 448 448 == **4.1 角色,能力和责任** == 449 449 450 -实践指南没有描述实践管理的角色,例如实践所有者,实践领导者或实践教练。实践指南着重于每个实践的专家角色。每个角色的结构和命名都可能在组织间存在差异,因此ITIL中定义的任何角色都不应被视为强制性的,甚至不被视为建议。请记住,角色不是职务头衔。一个人可以担任多个角色,同样,一个角色可以分配给多个人。 584 +**实践指南没有描述实践管理的角色,例如实践所有者,实践领导者或实践教练。实践指南着重于每个实践的专家角色。每个角色的结构和命名都可能在组织间存在差异,因此ITIL中定义的任何角色都不应被视为强制性的,甚至不被视为建议。请记住,角色不是职务头衔。一个人可以担任多个角色,同样,一个角色可以分配给多个人。** 451 451 452 -流程和活动中描述了角色。每个角色可以基于以下能力框架模型进行描述: 586 +**流程和活动中描述了角色。每个角色可以基于以下能力框架模型进行描述:** 453 453 454 -|能力代码|描述 588 +|**能力代码**|**描述** 455 455 |**L**|**Leader 领导者** 与此能力相关的活动和技能包括决策、授权、监督其他活动、激励措施和动机、以及评估结果。 456 456 |**А**|**Administrator 管理员** 与此功能相关的活动和技能包括任务的分配和优先级,记录保存,持续报告以及基本改进计划。 457 457 |**C**|**Coordinator/Communicator 协调员/沟通者** 与此能力相关的活动和技能包括多方协调,利益相关方之间的沟通以及开展提高认识行动。 ... ... @@ -458,25 +458,225 @@ 458 458 |**М**|**Methods and techniques expert 方法和技术专家** 与该能力相关的活动和技能包括设计和工作技术的实施,程序文档,有关流程的咨询,工作分析以及持续改进。 459 459 |**Т**|**Technical expert 技术专家** 此能力专注于技术(IT)专业知识和基于专业知识的任务。 460 460 461 -[[image:1642237990168-323.png]] 462 462 463 -[[image:1642238024237-336.png]] 596 +|(% style="width:203px" %)**活动**|(% colspan="2" style="width:205px" %)**负责角色**|(% colspan="2" %)**能力框架**|**具体技能** 597 +|(% colspan="6" %)**监控规划流程** 598 +|(% style="width:203px" %)**定义监控目标**|(% style="width:199px" %)((( 599 +**服务负责人** 464 464 465 - [[image:1642238202293-164.png]]601 +**设计人** 466 466 467 - [[image:1642238225338-195.png]]603 +**开发人员** 468 468 469 - [[image:1642238253882-729.png]]605 +**用户** 470 470 471 - 表4.1 监控和事态管理实践活动涉及的角色607 +**交付经理** 472 472 609 +**客户经理** 473 473 611 +**测试人员** 612 + 613 +**服务验证专家** 614 + 615 +**运维经理** 616 +)))|(% colspan="2" %)**协调员、管理员(CA)**|(% colspan="2" %)((( 617 +**理解利益相关者的服务价值和服务主张** 618 + 619 +**服务级别和用户体验方面的专业知识** 620 +))) 621 +|(% style="width:203px" %)((( 622 +**评估可用的度量监控标准** 623 + 624 +**定义监控对象的事态类型** 625 + 626 +**定义不同事态类型的阈值** 627 +)))|(% style="width:199px" %)((( 628 +**测试人员** 629 + 630 +**服务验证专家** 631 + 632 +**监控专家** 633 + 634 +**开发人员** 635 + 636 +**设计人员** 637 + 638 +**架构师** 639 + 640 +**业务经理** 641 +)))|(% colspan="2" %)**技术专家、方法技术专家(T M)**|(% colspan="2" %)((( 642 +**服务架构和设计的知识** 643 + 644 +**监控工具,探头探测器和传感器方面的专业知识** 645 +))) 646 +|(% style="width:203px" %)((( 647 +**定义服务'运行状况模型'(端到端事件)** 648 + 649 +**定义事件关联和规则集** 650 +)))|(% style="width:199px" %)((( 651 +**服务负责人** 652 + 653 +**用户** 654 + 655 +**交付经理** 656 + 657 +**客户经理** 658 + 659 +**运维经理** 660 + 661 +**测试人员** 662 + 663 +**服务验证专家** 664 + 665 +**监控专家** 666 + 667 +**开发人员** 668 + 669 +**设计人员** 670 + 671 +**架构师** 672 +)))|(% colspan="2" %)**技术专家、方法技术专家、管理员(T M A)**|(% colspan="2" %)((( 673 +**用户体验的知识** 674 + 675 +**功效需求和功用需求的知识** 676 + 677 +**服务主题和业务流程知识** 678 + 679 +**服务架构和设计的知识** 680 + 681 +**监控工具、探头探测器和传感器方面的专业知识** 682 +))) 683 +|(% style="width:203px" %)**建立行动计划和需要响应和通知的职能部门之间的映射关系**|(% style="width:199px" %)((( 684 +**服务负责人** 685 + 686 +**用户** 687 + 688 +**交付经理** 689 + 690 +**客户经理** 691 + 692 +**测试人员** 693 + 694 +**服务验证专家** 695 + 696 +**监控专家** 697 + 698 +**开发人员** 699 + 700 +**设计人员** 701 + 702 +**架构师** 703 +)))|(% colspan="2" %)**管理员、技术专家、方法技术专家(A T M)**|(% colspan="2" %)((( 704 +**运维和支持基础设施以及组织的知识** 705 + 706 +**服务架构和设计的知识** 707 + 708 +**监控工具以及探头探测器和传感器方面的专业知识** 709 +))) 710 +|(% colspan="6" %)((( 711 +**事态处理流程** 712 + 713 +**应尽一切努力使此流程尽可能自动化,因此将不讨论该流程的角色。** 714 +))) 715 +|(% colspan="6" %)**监控和事态管理评审** 716 +|(% style="width:203px" %)((( 717 +**评审重大事件或事态** 718 + 719 +**评审过滤和相关性分析** 720 + 721 +**评审服务“运行状况模式“** 722 +)))|(% style="width:199px" %)((( 723 +**服务负责人** 724 + 725 +**用户** 726 + 727 +**交付经理** 728 + 729 +**客服经理** 730 + 731 +**监控专家** 732 + 733 +**开发人员** 734 + 735 +**设计人员** 736 + 737 +**架构师** 738 +)))|(% colspan="2" %)**技术专家、方法技术专家、管理员(T M A)**|(% colspan="2" %)((( 739 +**服务架构和设计的知识** 740 + 741 +**监控工具方面的专业知识** 742 + 743 +**服务主题知识和业务流程知识** 744 + 745 +**持续改进技能** 746 +))) 747 +|(% style="width:203px" %)**评估事态的响应程序和自动化程度**|(% style="width:199px" %)((( 748 +**服务负责人** 749 + 750 +**交付经理** 751 + 752 +**监控专家** 753 + 754 +**开发人员** 755 + 756 +**设计人员** 757 + 758 +**架构师** 759 + 760 +**服务台经理** 761 + 762 +**运维经理** 763 +)))|(% colspan="2" %)**管理员、技术专家、方法技术专家、协调员(ATMC)**|(% colspan="2" %)((( 764 +**运维和支持基础设施以及组织的知识** 765 + 766 +**监控工具方面的专业知识** 767 + 768 +**自动化专业知识** 769 + 770 +**服务主题知识和业务流程知识** 771 + 772 +**持续改进技能** 773 +))) 774 +|(% style="width:203px" %)**评审用于数据分析、相关性分析、人工智能(AI)和机器学习(ML)的工具**|(% style="width:199px" %)((( 775 +**监控专家** 776 + 777 +**架构师** 778 + 779 +**业务分析员** 780 + 781 +**技术顾问** 782 +)))|(% colspan="2" %)**方法技术专家、技术专家、管理员(MTA)**|(% colspan="2" %)((( 783 +**监控工具,AI,ML方面的专业知识** 784 + 785 +**自动化专业知识** 786 + 787 +**持续改进技能** 788 +))) 789 +|(% style="width:203px" %)**评审监控工具收集的统计信息**|(% style="width:199px" %)((( 790 +**监控专家** 791 + 792 +**架构师** 793 + 794 +**业务分析员** 795 +)))|(% colspan="2" %)**方法技术专家、技术专家、管理员(M T A)**|(% colspan="2" %)((( 796 +**服务架构和设计的知识** 797 + 798 +**监控工具方面的专业知识** 799 + 800 +**服务主题知识和业务流程知识** 801 + 802 +**持续改进技能** 803 +))) 804 + 805 +**表4.1 监控和事态管理实践活动涉及的角色** 806 + 807 + 474 474 == **4.2 组织结构和团队** == 475 475 476 476 477 -组织中很少有专门的监控和事态管理团队。通常,负责服务交付和运维的人员是参与监控的人员。 811 +**组织中很少有专门的监控和事态管理团队。通常,负责服务交付和运维的人员是参与监控的人员。** 478 478 479 -确保在服务生命周期的设计阶段规划监控是很重要的。因此,负责监控的人员应该参与设计阶段,开发服务或组件的团队可以将服务移交给运维和建立监控。这包括架构师,软件开发团队,基础设施团队,设计人员,负责服务验证、可用性、连续性、容量和性能的团队,等等。 813 +**确保在服务生命周期的设计阶段规划监控是很重要的。因此,负责监控的人员应该参与设计阶段,开发服务或组件的团队可以将服务移交给运维和建立监控。这包括架构师,软件开发团队,基础设施团队,设计人员,负责服务验证、可用性、连续性、容量和性能的团队,等等。** 480 480 481 481 482 482 ... ... @@ -488,72 +488,222 @@ 488 488 == **5.1 信息交流** == 489 489 490 490 491 -监控和事态管理实践的效果基于所使用信息的质量。该信息包括但不限于以下信息: 825 +**监控和事态管理实践的效果基于所使用信息的质量。该信息包括但不限于以下信息:** 492 492 493 493 1. ((( 494 -客户和用户 828 +**客户和用户** 495 495 ))) 496 496 1. ((( 497 -服务,及其架构和设计,接受标准和SLA 831 +**服务,及其架构和设计,接受标准和SLA** 498 498 ))) 499 499 1. ((( 500 -合作伙伴和供应商,包括有关它们提供的服务的SLA信息 834 +**合作伙伴和供应商,包括有关它们提供的服务的SLA信息** 501 501 ))) 502 502 1. ((( 503 -规范服务提供的政策和要求 837 +**规范服务提供的政策和要求** 504 504 ))) 505 505 1. ((( 506 -持续的服务交付,包括: 840 +**持续的服务交付,包括:** 507 507 ))) 508 508 509 -* 有关当前运行的服务状态的信息 510 -* 服务功效需求和功用需求 511 -* 可用的服务指标 512 -* 服务依赖的配置项 513 -* 服务组件与其性能之间的相互依赖性 514 -* 有关重大事件的信息 515 -* 与已计划的和正在进行的变更及其对服务性能的预期影响有关的信息 516 -* 可用性,容量和性能目标 517 -* 负责服务和组件的团队 518 -* 有关服务的知识文章 843 +* **有关当前运行的服务状态的信息** 844 +* **服务功效需求和功用需求** 845 +* **可用的服务指标** 846 +* **服务依赖的配置项** 847 +* **服务组件与其性能之间的相互依赖性** 848 +* **有关重大事件的信息** 849 +* **与已计划的和正在进行的变更及其对服务性能的预期影响有关的信息** 850 +* **可用性,容量和性能目标** 851 +* **负责服务和组件的团队** 852 +* **有关服务的知识文章** 519 519 520 - 6.有关服务改进状态的信息 854 +**~ 6.有关服务改进状态的信息** 521 521 522 522 523 -该信息可以采用各种形式。实践的关键输入和输出在本指南的“ 价值流和流程”部分中列出。 857 +**该信息可以采用各种形式。实践的关键输入和输出在本指南的“ 价值流和流程”部分中列出。** 524 524 525 525 526 526 == **5.2 自动化和工具** == 527 527 528 528 529 -在某些情况下,监控和事态管理实践的工作可以大大受益于自动化(有关何时适用的详细信息,请参见本指南的“ 价值流和流程”部分)。在这种情况下,自动化是可能且有效的,它可能涉及表5.1中概述的解决方案。 863 +**在某些情况下,监控和事态管理实践的工作可以大大受益于自动化(有关何时适用的详细信息,请参见本指南的“ 价值流和流程”部分)。在这种情况下,自动化是可能且有效的,它可能涉及表5.1中概述的解决方案。** 530 530 531 -[[image:1642238337737-961.png]] 865 +|**流程活动**|**自动化手段**|**关键功能**|**实践的效果上的影响** 866 +|(% colspan="4" %)**监控规划流程** 867 +|((( 868 +**定义监控目标** 532 532 533 - [[image:1642238364744-334.png]]870 +**评估可用的度量监控标准** 534 534 535 -[[image:1642238466365-934.png]] 872 +**定义监控对象的事态类型** 873 +)))|((( 874 +**可视化工具(例如思维导图,服务图表,架构可视化)** 536 536 537 - [[image:1642238480595-735.png]]876 +**服务目录工具** 538 538 539 -表5.1 监控和事态管理活动的自动化解决方案 878 +**配置管理数据库** 879 +)))|((( 880 +**服务结构,依赖项,配置项等的可视化** 540 540 882 +**提供有关服务结构的信息,以及** 541 541 884 +**组件/ 服务的相互依赖性** 542 542 886 +**提供有关** 887 + 888 +**服务SLA和要求的信息** 889 +)))|**中** 890 +|((( 891 +**定义不同事态类型的阈值** 892 + 893 +**定义服务'运行状况模型'(端到端事件)** 894 + 895 +**定义事态关联和规则集** 896 +)))|((( 897 +**监控和事态管理工具** 898 + 899 +**ITSM工具** 900 + 901 +**软件定义的基础设施工具** 902 + 903 +**基础设施和平台内置的监控工具** 904 + 905 +**服务可视化工具** 906 +)))|**主动和被动性监控,事态设置,数据收集,数据分析,警报,规则设置**|**高** 907 +|**建立行动计划和需要响应和通知的职能部门之间的映射关系**|((( 908 +**监控和事态管理工具** 909 + 910 +**ITSM工具** 911 + 912 +**软件定义的基础设施工具** 913 + 914 +**协作和通讯工具** 915 + 916 +**集成总线** 917 + 918 +**自动化系统** 919 + 920 +**用于事态关联、行为监控与分析的AI和ML工具** 921 +)))|((( 922 +**ITSM工具集成(例如,基于事态的事件记录)** 923 + 924 +**通知和通讯,任务创建。** 925 + 926 +**自动化脚本运行** 927 + 928 +**AI和ML 事态关联,正常/异常行为分析** 929 +)))|**高** 930 +|(% colspan="4" %)**事态处理流程** 931 +|((( 932 +**事态检测** 933 + 934 +**事态日志记录** 935 + 936 +**事态过滤和相关性检查(可能是迭代的)** 937 + 938 +**事态分类** 939 + 940 +**事态响应选择** 941 + 942 +**发送通知、执行响应过程** 943 +)))|((( 944 +**监控和事态管理工具** 945 + 946 +**ITSM工具** 947 + 948 +**软件定义的基础设施工具** 949 + 950 +**协作和** 951 + 952 +**通讯工具** 953 + 954 +**集成总线** 955 + 956 +**自动化系统** 957 + 958 +**报告和仪表板工具和门户** 959 +)))|((( 960 +**ITSM工具集成(例如,基于事态的事件记录)** 961 + 962 +**通知和通讯,任务创建。** 963 + 964 +**自动化脚本运行** 965 + 966 +**AI和ML 事态关联,正常/异常行为分析** 967 + 968 +**报告和仪表板发布** 969 +)))|**高** 970 +|(% colspan="4" %)**监控和事态管理评审** 971 +|((( 972 +**评审重大事件或事态** 973 + 974 +**评审过滤和相关性分析** 975 + 976 +**评审服务“运行状况模式“** 977 + 978 +**评估事态的响应程序和自动化程度** 979 + 980 +**评审用于数据分析、相关性分析、人工智能和机器学习的工具** 981 + 982 +**评审监控工具收集的统计信息** 983 +)))|((( 984 +**可视化工具(例如思维导图,服务图表,架构可视化)** 985 + 986 +**统计分析工具,数据库** 987 + 988 +**服务目录工具** 989 + 990 +**配置管理数据库** 991 + 992 +**监控和事态管理工具** 993 + 994 +**ITSM工具** 995 + 996 +**协作和通讯工具** 997 + 998 +**报告和仪表板工具和门户** 999 + 1000 +**业务分析工具** 1001 + 1002 +**基准工具和** 1003 + 1004 +**知识管理工具** 1005 +)))|((( 1006 +**服务结构,依赖项,配置项等的可视化** 1007 + 1008 +**提供有关服务结构和组件/ 服务相互依赖关系的信息** 1009 + 1010 +**提供有关服务SLA和要求,合规性和违规的信息** 1011 + 1012 +**提供重大事件的信息** 1013 + 1014 +**报告和仪表板发布** 1015 + 1016 +**通知,聊天** 1017 + 1018 +**分析和评估** 1019 + 1020 +**知识共享** 1021 +)))|**中** 1022 + 1023 +**表5.1 监控和事态管理活动的自动化解决方案** 1024 + 1025 + 1026 + 543 543 ---- 544 544 545 545 = **6 合作伙伴和供应商** = 546 546 547 547 548 -只有很少的服务是使用自己的资源提供的。大多数(如果不是全部)依赖于其他服务,这些服务通常由组织以外的第三方提供(请参阅ITIL//®//Foundation:ITIL 4 Edition出版物中的第2.4节,了解服务关系的模型)。支持服务在供应商管理的实践指南中介绍了关系和依赖性。 1032 +**只有很少的服务是使用自己的资源提供的。大多数(如果不是全部)依赖于其他服务,这些服务通常由组织以外的第三方提供(请参阅ITIL//®//Foundation:ITIL 4 Edition出版物中的第2.4节,了解服务关系的模型)。支持服务在供应商管理的实践指南中介绍了关系和依赖性。** 549 549 550 -通信和云服务的开发使得外部监控服务非常受欢迎。配置项像服务器,数据库实例可以安装监控代理并将信息输入云存储库。这样的解决方案使其他使用了AI和机器学习(ML)的分析变得更容易,更便宜。这种解决方案中的机器学习(ML)通过合并来自数千个监控对象的数据以及对系统和用户的正常和异常行为理解的不断修正而得到改进。 1034 +**通信和云服务的开发使得外部监控服务非常受欢迎。配置项像服务器,数据库实例可以安装监控代理并将信息输入云存储库。这样的解决方案使其他使用了AI和机器学习(ML)的分析变得更容易,更便宜。这种解决方案中的机器学习(ML)通过合并来自数千个监控对象的数据以及对系统和用户的正常和异常行为理解的不断修正而得到改进。** 551 551 552 -另一个重要的考量是涉及到外包服务和组件监控权限的问题,因此组织会控制与服务提供者达成共识的度量标准。 1036 +**另一个重要的考量是涉及到外包服务和组件监控权限的问题,因此组织会控制与服务提供者达成共识的度量标准。** 553 553 554 -此外,必须将外部供应商开发的所有服务设计为具有监控功能,这意味着设计的服务必须能够提供有关其性能和运行状态的信息。 1038 +**此外,必须将外部供应商开发的所有服务设计为具有监控功能,这意味着设计的服务必须能够提供有关其性能和运行状态的信息。** 555 555 556 -当组织旨在确保监控和事态管理快速有效时,他们通常会试图同意与合作伙伴和供应商的密切合作,消除沟通,协作和决策方面的正式官僚障碍。有关更多信息,请参考供应商管理实践指南。 1040 +**当组织旨在确保监控和事态管理快速有效时,他们通常会试图同意与合作伙伴和供应商的密切合作,消除沟通,协作和决策方面的正式官僚障碍。有关更多信息,请参考供应商管理实践指南。** 557 557 558 558 559 559 ... ... @@ -562,19 +562,19 @@ 562 562 = **7 重要提醒** = 563 563 564 564 565 -实践指南的大部分内容都应作为组织在建立和发展自己的实践时可能考虑的领域的建议。实践指南是组织可能考虑的事情的目录,而不是答案的列表。使用ITIL 实践指南的内容时,组织应始终遵循ITIL 指导原则: 1049 +**实践指南的大部分内容都应作为组织在建立和发展自己的实践时可能考虑的领域的建议。实践指南是组织可能考虑的事情的目录,而不是答案的列表。使用ITIL 实践指南的内容时,组织应始终遵循ITIL 指导原则:** 566 566 567 - *聚焦价值568 - *从你所处的地方开始569 - *基于反馈迭代推进570 - *协作和提升可视化程度571 - *整体性思考和工作572 - *保持简单实用573 - *优化和自动化。1051 +1. **聚焦价值** 1052 +1. **从你所处的地方开始** 1053 +1. **基于反馈迭代推进** 1054 +1. **协作和提升可视化程度** 1055 +1. **整体性思考和工作** 1056 +1. **保持简单实用** 1057 +1. **优化和自动化。** 574 574 575 -有关指导原则及其应用程序的更多信息,请参见以下内容的第4.3节: 1059 +**有关指导原则及其应用程序的更多信息,请参见以下内容的第4.3节:** 576 576 577 -//ITIL®Foundation:ITIL 4Edition//. 1061 +**//ITIL®Foundation:ITIL 4Edition//.** 578 578 579 579 580 580 ... ... @@ -583,14 +583,16 @@ 583 583 = **8 致谢** = 584 584 585 585 586 -AXELOS Ltd非常感谢为本指南的开发做出贡献的每一个人。这些实践指南融合了ITIL社区前所未有的热情和反馈。AXELOS特别要感谢以下人员。 1070 +**AXELOS Ltd非常感谢为本指南的开发做出贡献的每一个人。这些实践指南融合了ITIL社区前所未有的热情和反馈。AXELOS特别要感谢以下人员。** 587 587 588 588 589 589 == **8.1 作者** == 590 590 591 -Dennis Cotter . 1075 +**Dennis Cotter .** 592 592 593 593 594 594 == **8.2 审稿人** == 595 595 596 -Roman Jouravlev. 1080 +**Roman Jouravlev.** 1081 + 1082 +
- 1642237641108-965.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -99.0 KB - Content
- 1642237710166-351.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -109.4 KB - Content
- 1642237738910-108.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -26.9 KB - Content
- 1642237833826-395.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -68.3 KB - Content
- 1642237866153-106.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -50.7 KB - Content
- 1642237945213-442.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -117.1 KB - Content
- 1642237990168-323.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -59.9 KB - Content
- 1642238024237-336.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -51.8 KB - Content
- 1642238049838-958.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -39.8 KB - Content
- 1642238202293-164.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -45.3 KB - Content
- 1642238225338-195.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -59.3 KB - Content
- 1642238253882-729.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -21.9 KB - Content
- 1642238337737-961.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -69.5 KB - Content
- 1642238364744-334.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -39.6 KB - Content
- 1642238421478-919.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -94.3 KB - Content
- 1642238466365-934.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -49.1 KB - Content
- 1642238480595-735.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -71.7 KB - Content
- 1642238606576-143.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -33.5 KB - Content