Changes for page 服务管理实践 - 05 监控和事态
Last modified by superadmin on 2024/12/25, 15:38
Summary
-
- 1642237641108-965.png
- 1642237710166-351.png
- 1642237738910-108.png
- 1642237833826-395.png
- 1642237866153-106.png
- 1642237945213-442.png
- 1642237990168-323.png
- 1642238024237-336.png
- 1642238049838-958.png
- 1642238202293-164.png
- 1642238225338-195.png
- 1642238253882-729.png
- 1642238337737-961.png
- 1642238364744-334.png
- 1642238421478-919.png
- 1642238466365-934.png
- 1642238480595-735.png
- 1642238606576-143.png
Details
- Page properties
-
- Title
-
... ... @@ -1,1 +1,1 @@ 1 -05 监控和事态管理 实践1 +05 监控和事态管理(尚未发布) - Content
-
... ... @@ -55,13 +55,11 @@ 55 55 56 56 = **2 一般信息** = 57 57 58 - 59 59 == **2.1 目的和描述** == 60 60 61 61 62 62 监控和事态管理实践的目的是系统地观察服务和服务组件,将其状态变化识别为事态并进行记录和报告。该实践识别基础设施、服务、业务流程和信息安全等事态,确定其优先级,建立对这些事态的适当响应,包括对可能导致潜在故障或事件的条件作出响应。 63 63 64 - 65 65 |((( 66 66 **事态** 67 67 ... ... @@ -103,7 +103,6 @@ 103 103 104 104 监控通过多种不同的方式得以实现。配置项(CIs)可以通过轮询(即响应监控工具收集特定目标数据的请求)或通过在满足某些条件时自动通知监控工具来共享有关其自身的信息。监控工具对服务组件的询问代表着主动监控,而配置项(CIs)向监控工具发送的通知代表着被动监控。 105 105 106 -(% style="text-align:center" %) 107 107 [[image:图片1.png]] 108 108 109 109 ... ... @@ -118,7 +118,6 @@ 118 118 119 119 尽管监控和事态管理传统上专注于服务的技术组件,但对了解其他服务管理资源和活动(包括流程,人员和供应商)的状态也很有用。 120 120 121 - 122 122 |((( 123 123 **指标** 124 124 ... ... @@ -234,7 +234,7 @@ 234 234 * 确保及时,相关且足够的监控数据提供给相关的利益相关者 235 235 * 确保发现、解释事态,并在需要时尽快采取措施 236 236 237 -=== **2.4.1 建立和维护描述各类事态和探测它们所需的监控功能的方法/模型**===233 +=== 2.4.1 建立和维护描述各类事态和探测它们所需的监控功能的方法/模型 === 238 238 239 239 在大多数情况下,现代技术为度量和监控服务以及服务组件操作的各个方面提供了机会,但是从业人员应认真管理监控的范围以及度量指标的频率和数量。现代监控和事态管理实践的主要挑战不是缺少数据,而是监控必须处理的数据的规模。监控和事态管理实践的重点应该是获取有意义的信息,以支持服务的操作与改进,决策和价值的创造。建立或改进监控和事态管理实践时,应考虑以下方面: 240 240 ... ... @@ -271,7 +271,7 @@ 271 271 许多IT 监控工具和EMS本身很可能由第三方供应商提供,监控和事态管理实践和供应商管理实践将保持稳定的工作关系。 272 272 273 273 274 -=== **2.4.2 确保将及时,相关且足够的监控数据提供给相关的利益相关者**===270 +=== 2.4.2 确保将及时,相关且足够的监控数据提供给相关的利益相关者 === 275 275 276 276 当根据原始服务设计和与客户达成的服务级别协议(SLA)进行基准校对时,监控和事态管理的报告能够使服务提供者的实际操作性能和行为基本真实。监控和事态管理提供了直接的观察结果、基于事实的经验证据,而不是预期或期望的结果。 277 277 ... ... @@ -280,7 +280,7 @@ 280 280 监控和事态管理确定了薄弱区域,因此可以采取补救行动(如果有正当的业务案例),以改进将来的服务质量。监控和事态管理还可以显示客户动作在哪里导致故障,并确定工作效率和/或培训可以在哪些地方得到改善。监控和事态管理还可以同时处理内部和外部供应商,因为他们的绩效必须得到评估和管理。 281 281 282 282 283 -=== **2.4.3 确保探测、解释事件,并在需要时尽快采取措施**===279 +=== 2.4.3 确保探测、解释事件,并在需要时尽快采取措施 === 284 284 285 285 仅仅为监控和事态管理定义规则还不够,事态的实际探测和处理程序才能使这些规则有价值。事态管理的效率和范围在很大程度上取决于服务架构和服务管理自动化水平。在数字化基础设施和现代应用程序中,许多用于监控和事态管理的工具是内置的,实践的重点是事态处理规则的集成和调整。 286 286 ... ... @@ -290,7 +290,6 @@ 290 290 291 291 不管组织的监控和事态管理功能有多有限,都应持续改进,以确保实践满足组织的需求。 292 292 293 - 294 294 == **2.5 关键指标** == 295 295 296 296 ITIL实践是产品和服务管理的手段或工具。像任何工具的性能一样,只能在该工具的应用程序的环境中评估实践绩效。但是,不同工具在质量上可能有所不同。这种差异定义了工具根据其用途在使用时的能力或潜力。 ... ... @@ -332,13 +332,13 @@ 332 332 333 333 图3.1中显示了监控和事态实践对服务价值链的贡献。 334 334 330 +[[image:file:///C:\Users\19805\AppData\Local\Temp\ksohtml15296\wps8.png]] 335 335 336 -(% style="text-align:center" %) 337 -[[image:微信截图_20210217171257.png]] 338 - 339 339 图3.1 监控和事态管理实践对价值链活动的贡献的热力图。 340 340 334 +[[image:微信截图_20210217171257.png]] 341 341 336 + 342 342 监控和事态管理实践贡献的主要价值链活动是: 343 343 344 344 * 交付和支持 ... ... @@ -397,34 +397,67 @@ 397 397 表3.1 监控规划流程的输入、活动和输出 398 398 399 399 400 - 401 -(% style="text-align:center" %) 402 402 [[image:图片3.png]] 403 403 404 404 图3.2 监控规划流程的工作流程 405 405 406 406 400 +表3.2监控规划流程的活 407 407 408 -表3.2监控规划流程的活动 402 +|**活动**|**描述** 403 +|定义监控目标|((( 404 +利用从服务设计阶段、服务验证和测试实践以及服务开发(可用性,容量和性能管理实践)和服务级别管理实践收到的信息,团队定义监控的关键目标。 409 409 410 - [[image:1642237641108-965.png]]406 +该讨论应覆盖功效需求到功用需求(首先涵盖最明显的功能要求,例如,在应用程序的用户案例中)。另外,从关键服务性能到更多详细信息和组件,它的颗粒度应增加。 411 411 412 -[[image:1642237710166-351.png]] 408 +团队应列出一个优先级降序的监控列表。 409 +))) 410 +|评估可用的度量监控标准|((( 411 +然后,将监控优先级列表项映射或转换为可用度量或基于可用度量的综合度量。 413 413 414 -[[image:1642237738910-108.png]] 413 +应该探索添加度量值。 414 +))) 415 +|定义监控对象的事态类型|团队对不同类型的事态进行定义和分类。类型可以是一般性的,例如信息性,警告性,异常性,也可以取决于功能,用户组及其优先级,再通过关键监控目标的组件或类型进行划分。 416 +|定义不同事态类型的阈值|((( 417 +团队与服务或组件开发团队一起定义不同类型事态的阈值。相同的组件指标可能是根据现有的SLA和针对服务或组件定义的可用性,容量和性能的要求,它基于服务进行了不同的处理。 415 415 419 +另外,应该将处理吞吐量的事态纳入考量,因为尽管现代IT系统几乎可以探测到任何事态,但不是所有事态都需要进行响应。因此,从最初预防灾难到后来完善组件,通常都应将监控和事态管理进行迭代开发。 420 +))) 421 +|定义服务'运行状况模型'(端到端事态)|((( 422 +根据参与服务设计的团队的输入,构建了一个“运行状况模型”,它反映了服务及其关联的关键事态。一个服务可能有几种模型。 416 416 424 +这些模型使监控团队可以评估服务的用户体验。例如,可以为单个银行客户交易构建模型,并度量从移动应用程序中的请求(包括所有银行数据库系统到移动应用程序中完成交易的通知)花费的时间。 417 417 418 -=== **3.2.2 事态规划** === 426 +服务“运行状况模型”也可以实现为服务健康和性能的报告或仪表板,并由服务所有者,参与其他实践的团队和其他利益相关者临时使用。这样,有关这些服务的信息就被干系人“拉”走了。 427 +))) 428 +|定义事态关联和规则集|((( 429 +与参与服务设计的团队一起,定义事态关联和相应的规则集。 419 419 431 +某些关联可能会使用第二个事态作为对第一个事态的检查,或者进一步过滤事态的范围。同样,已定义的关联可以帮助防止事态同时发生时可能产生的负面协同效应。 432 + 433 +规则集由多个规则组成,这些规则定义了如何处理和评估特定事态的事态消息。例如,每次磁盘日志文件到达其容量时都可能生成警告事态,但是如果已生成四个以上的警告事件,则会生成异常事态。 434 + 435 +规则本身通常嵌入监控和事态处理技术中。它们由布尔类型的算法组成,用于关联已生成的事态,以创建需要传达的其他事态。这些算法可以编入通常称为关联引擎的事态管理软件中。 436 + 437 +人工智能(AI)系统可用于定义用户,管理员,系统等的典型和非典型行为。这可能形成其他检查以过滤事态。 438 +))) 439 +|将事态与行动计划、职能部门和通知对应起来|((( 440 +对于每个事态或事态组,都定义了一个行动计划以尽量减少事态的负面影响。基于行动计划,可以定义响应事态的团队或职能部门。 441 + 442 +行动计划还可以自动执行或半自动执行,包括对某些重要操作进行人工干预。 443 + 444 +在此阶段创建的行动计划成为事态程序和自动化的基础。 445 +))) 446 + 447 +=== 3.2.2 事态规划 === 448 + 420 420 表3.3事态处理流程的输入、活动和输出 421 421 422 -(% style="width:593px" %) 423 -|(% style="width:137px" %)**关键输入**|(% style="width:220px" %)**活动**|(% style="width:233px" %)**关键输出** 424 -|(% style="width:137px" %)((( 451 +|**关键输入**|**活动**|**关键输出** 452 +|((( 425 425 * 来自监控对象,监控工具的通知 426 426 * 监控计划 427 -)))|( % style="width:220px" %)(((455 +)))|((( 428 428 * 事态检测 429 429 * 事态日志记录 430 430 * 事态过滤和相关性检查(可能是迭代的) ... ... @@ -431,7 +431,7 @@ 431 431 * 事态分类 432 432 * 事态响应选择 433 433 * 发送通知,执行响应规程 434 -)))|( % style="width:233px" %)(((462 +)))|((( 435 435 * 事态记录 436 436 * 已更新的事态统计信息 437 437 * 事态响应错误 ... ... @@ -444,39 +444,103 @@ 444 444 445 445 图3.3事态处理流程的工作流程 446 446 447 -(% style="text-align:center" %) 448 448 [[image:图片4.png]] 449 449 477 +[[image:file:///C:\Users\19805\AppData\Local\Temp\ksohtml15296\wps11.jpg]] 450 450 451 451 452 452 表3.4事态处理流程的活动 453 453 454 -[[image:1642237833826-395.png]] 482 +|**活动**|**描述** 483 +|事态检测|((( 484 +监控系统检测到的事态,或作为手动监控的结果。 455 455 456 -[[image:1642237866153-106.png]] 486 +并非所有事态都应被检测到,监控系统带宽也应纳入考量。在现有有限的资源中应仅检测到关键事件和需要采取行动的事态。 487 +))) 488 +|事态记录|事态应该最好自动记录在监控系统中。 489 +|事态过滤和相关性检查(可能是迭代的)|((( 490 +事态应该按照规则集进行处理,以过滤和查找相关性,以实现更好的分类。 457 457 492 +该活动可能是迭代的。 493 +))) 494 +|事态分类|事态分为组或类型,如果需要选择适当的响应,则在组内进一步过滤特定的事态。 495 +|事态响应选择|在监控规划流程中应该为每个事态制定行动计划或响应规程。根据规划中定义的规则,选择事态响应和通知的团队。 496 +|发送通知,执行响应规程|响应规程执行后,将通知负责操作或监督的团队(如果响应规程是全自动的)。 458 458 498 +|**关键输入**|**活动**|**关键输出** 499 +|((( 500 +* 更新的知识文章 501 +* 重大事态记录 502 +* 重大事件记录 503 +* 改进建议 504 +* 事态记录和统计 505 +* 服务所有者和利益相关者的信息请求 506 +)))|((( 507 +* 评审重大事态和事件 508 +* 评审过滤和相关性分析 509 +* 评审服务“运行状态模式” 510 +* 评估事态的响应程序和自动化程度 511 +* 评审用于数据分析、相关性分析、人工智能(AI)和机器学习(ML)的工具 512 +* 评审监控工具收集的统计信息 513 +)))|((( 514 +* 更新的事态响应程序 515 +* 过滤和相关分析的改进建议 516 +* 针对自动化的变更 517 +* 更新的监控标准和阈值 518 +* 更新的过滤方法 519 +* 更新的被使用的工具和技术清单 520 +* 更新的已提供的报告和统计信息清单 521 +))) 459 459 460 460 === **3.2.3 监控和事态管理评审** === 461 461 462 -[[image:1642237945213-442.png]] 525 +|活动|描述 526 +|评审重大事态和事件|((( 527 +事实上,重大事件发生通常可能意味着未检测到某些异常服务或组件行为并对其采取行动。因此,重大事态和事件为监控知识发现和改进提供了良好的基础。 463 463 464 - 表3.6 监控和事态管理评审流程的活动529 +应审查和分析重大事态的性质、相关性,并将其分解为组件甚至配置项,并应探索相应的指标,这些指标可能有助于检测导致重大事件的重大事态或异常。 465 465 531 +应探索组件的其他或类似风险,并将已识别的事态添加到监控中。 466 466 533 +建议对监控进行更改以在未来检测类似的事态。 534 +))) 535 +|((( 536 +评审过滤和相关性分析的评审 467 467 538 +评审服务的“运行状态模式” 539 +)))|当监控检测到大量事态或检测不到事态时,应进行过滤和相关性分析。有时可以考虑采取临时措施,例如放宽阈值或事态分组。否则,应进行详细分析和详尽的规则定义,以及建议对监控进行更改。 540 +|评估事态响应程序和自动化程度|((( 541 +应评审因事态响应导致的事件和故障并提出变更建议。 542 + 543 +同样,此评审的目标应是提高事态检测和事态响应的自动化程度。也可以建议其他的自动化。 544 +))) 545 +|评审用于数据分析、相关性分析、人工智能(AI)和机器学习(ML)的工具|((( 546 +应审查内部和市场上可能提高监控效率的工具。应在监控预算内建议试用和试运行。 547 + 548 +另外,此评审应该讨论监控中使用的任何新技术或最佳实践,应该进行市场基准测试的开发,并提出对监控的改进。 549 +))) 550 +|评审监控工具收集的统计信息|((( 551 +应该审查统计信息,以提出对监控的改进,并监控服务。 552 + 553 +服务生命周期涉及的所有团队均应评审检测到的服务趋势。 554 +))) 555 + 556 +**表3.6 监控和事态管理评审流程的活动** 557 + 558 + 559 + 468 468 ---- 469 469 470 -= **4 ****组织和人员** =562 += 4 **组织和人员** = 471 471 472 472 473 473 == **4.1 角色,能力和责任** == 474 474 475 -实践指南没有描述实践管理的角色,例如实践所有者,实践领导者或实践教练。实践指南着重于每个实践的专家角色。每个角色的结构和命名都可能在组织间存在差异,因此ITIL中定义的任何角色都不应被视为强制性的,甚至不被视为建议。请记住,角色不是职务头衔。一个人可以担任多个角色,同样,一个角色可以分配给多个人。 567 +**实践指南没有描述实践管理的角色,例如实践所有者,实践领导者或实践教练。实践指南着重于每个实践的专家角色。每个角色的结构和命名都可能在组织间存在差异,因此ITIL中定义的任何角色都不应被视为强制性的,甚至不被视为建议。请记住,角色不是职务头衔。一个人可以担任多个角色,同样,一个角色可以分配给多个人。** 476 476 477 -流程和活动中描述了角色。每个角色可以基于以下能力框架模型进行描述: 569 +**流程和活动中描述了角色。每个角色可以基于以下能力框架模型进行描述:** 478 478 479 -|能力代码|描述 571 +|**能力代码**|**描述** 480 480 |**L**|**Leader 领导者** 与此能力相关的活动和技能包括决策、授权、监督其他活动、激励措施和动机、以及评估结果。 481 481 |**А**|**Administrator 管理员** 与此功能相关的活动和技能包括任务的分配和优先级,记录保存,持续报告以及基本改进计划。 482 482 |**C**|**Coordinator/Communicator 协调员/沟通者** 与此能力相关的活动和技能包括多方协调,利益相关方之间的沟通以及开展提高认识行动。 ... ... @@ -483,25 +483,224 @@ 483 483 |**М**|**Methods and techniques expert 方法和技术专家** 与该能力相关的活动和技能包括设计和工作技术的实施,程序文档,有关流程的咨询,工作分析以及持续改进。 484 484 |**Т**|**Technical expert 技术专家** 此能力专注于技术(IT)专业知识和基于专业知识的任务。 485 485 486 -[[image:1642237990168-323.png]] 578 +|(% style="width:203px" %)**活动**|(% colspan="2" style="width:205px" %)**负责角色**|(% colspan="2" %)**能力框架**|**具体技能** 579 +|(% colspan="6" %)**监控规划流程** 580 +|(% style="width:203px" %)**定义监控目标**|(% style="width:199px" %)((( 581 +**服务负责人** 487 487 488 - [[image:1642238024237-336.png]]583 +**设计人** 489 489 490 - [[image:1642238202293-164.png]]585 +**开发人员** 491 491 492 - [[image:1642238225338-195.png]]587 +**用户** 493 493 494 - [[image:1642238253882-729.png]]589 +**交付经理** 495 495 496 - 表4.1 监控和事态管理实践活动涉及的角色591 +**客户经理** 497 497 593 +**测试人员** 498 498 595 +**服务验证专家** 596 + 597 +**运维经理** 598 +)))|(% colspan="2" %)**协调员、管理员(CA)**|(% colspan="2" %)((( 599 +**理解利益相关者的服务价值和服务主张** 600 + 601 +**服务级别和用户体验方面的专业知识** 602 +))) 603 +|(% style="width:203px" %)((( 604 +**评估可用的度量监控标准** 605 + 606 +**定义监控对象的事态类型** 607 + 608 +**定义不同事态类型的阈值** 609 +)))|(% style="width:199px" %)((( 610 +**测试人员** 611 + 612 +**服务验证专家** 613 + 614 +**监控专家** 615 + 616 +**开发人员** 617 + 618 +**设计人员** 619 + 620 +**架构师** 621 + 622 +**业务经理** 623 +)))|(% colspan="2" %)**技术专家、方法技术专家(T M)**|(% colspan="2" %)((( 624 +**服务架构和设计的知识** 625 + 626 +**监控工具,探头探测器和传感器方面的专业知识** 627 +))) 628 +|(% style="width:203px" %)((( 629 +**定义服务'运行状况模型'(端到端事件)** 630 + 631 +**定义事件关联和规则集** 632 +)))|(% style="width:199px" %)((( 633 +**服务负责人** 634 + 635 +**用户** 636 + 637 +**交付经理** 638 + 639 +**客户经理** 640 + 641 +**运维经理** 642 + 643 +**测试人员** 644 + 645 +**服务验证专家** 646 + 647 +**监控专家** 648 + 649 +**开发人员** 650 + 651 +**设计人员** 652 + 653 +**架构师** 654 +)))|(% colspan="2" %)**技术专家、方法技术专家、管理员(T M A)**|(% colspan="2" %)((( 655 +**用户体验的知识** 656 + 657 +**功效需求和功用需求的知识** 658 + 659 +**服务主题和业务流程知识** 660 + 661 +**服务架构和设计的知识** 662 + 663 +**监控工具、探头探测器和传感器方面的专业知识** 664 +))) 665 +|(% style="width:203px" %)**建立行动计划和需要响应和通知的职能部门之间的映射关系**|(% style="width:199px" %)((( 666 +**服务负责人** 667 + 668 +**用户** 669 + 670 +**交付经理** 671 + 672 +**客户经理** 673 + 674 +**测试人员** 675 + 676 +**服务验证专家** 677 + 678 +**监控专家** 679 + 680 +**开发人员** 681 + 682 +**设计人员** 683 + 684 +**架构师** 685 +)))|(% colspan="2" %)**管理员、技术专家、方法技术专家(A T M)**|(% colspan="2" %)((( 686 +**运维和支持基础设施以及组织的知识** 687 + 688 +**服务架构和设计的知识** 689 + 690 +**监控工具以及探头探测器和传感器方面的专业知识** 691 +))) 692 +|(% colspan="6" %)((( 693 +**事态处理流程** 694 + 695 +**应尽一切努力使此流程尽可能自动化,因此将不讨论该流程的角色。** 696 +))) 697 +|(% colspan="6" %)**监控和事态管理评审** 698 +|(% style="width:203px" %)((( 699 +**评审重大事件或事态** 700 + 701 +**评审过滤和相关性分析** 702 + 703 +**评审服务“运行状况模式“** 704 +)))|(% style="width:199px" %)((( 705 +**服务负责人** 706 + 707 +**用户** 708 + 709 +**交付经理** 710 + 711 +**客服经理** 712 + 713 +**监控专家** 714 + 715 +**开发人员** 716 + 717 +**设计人员** 718 + 719 +**架构师** 720 +)))|(% colspan="2" %)**技术专家、方法技术专家、管理员(T M A)**|(% colspan="2" %)((( 721 +**服务架构和设计的知识** 722 + 723 +**监控工具方面的专业知识** 724 + 725 +**服务主题知识和业务流程知识** 726 + 727 +**持续改进技能** 728 +))) 729 +|(% style="width:203px" %)**评估事态的响应程序和自动化程度**|(% style="width:199px" %)((( 730 +**服务负责人** 731 + 732 +**交付经理** 733 + 734 +**监控专家** 735 + 736 +**开发人员** 737 + 738 +**设计人员** 739 + 740 +**架构师** 741 + 742 +**服务台经理** 743 + 744 +**运维经理** 745 +)))|(% colspan="2" %)**管理员、技术专家、方法技术专家、协调员(ATMC)**|(% colspan="2" %)((( 746 +**运维和支持基础设施以及组织的知识** 747 + 748 +**监控工具方面的专业知识** 749 + 750 +**自动化专业知识** 751 + 752 +**服务主题知识和业务流程知识** 753 + 754 +**持续改进技能** 755 +))) 756 +|(% style="width:203px" %)**评审用于数据分析、相关性分析、人工智能(AI)和机器学习(ML)的工具**|(% style="width:199px" %)((( 757 +**监控专家** 758 + 759 +**架构师** 760 + 761 +**业务分析员** 762 + 763 +**技术顾问** 764 +)))|(% colspan="2" %)**方法技术专家、技术专家、管理员(MTA)**|(% colspan="2" %)((( 765 +**监控工具,AI,ML方面的专业知识** 766 + 767 +**自动化专业知识** 768 + 769 +**持续改进技能** 770 +))) 771 +|(% style="width:203px" %)**评审监控工具收集的统计信息**|(% style="width:199px" %)((( 772 +**监控专家** 773 + 774 +**架构师** 775 + 776 +**业务分析员** 777 +)))|(% colspan="2" %)**方法技术专家、技术专家、管理员(M T A)**|(% colspan="2" %)((( 778 +**服务架构和设计的知识** 779 + 780 +**监控工具方面的专业知识** 781 + 782 +**服务主题知识和业务流程知识** 783 + 784 +**持续改进技能** 785 +))) 786 + 787 +**表4.1 监控和事态管理实践活动涉及的角色** 788 + 789 + 499 499 == **4.2 组织结构和团队** == 500 500 501 501 502 -组织中很少有专门的监控和事态管理团队。通常,负责服务交付和运维的人员是参与监控的人员。 793 +**组织中很少有专门的监控和事态管理团队。通常,负责服务交付和运维的人员是参与监控的人员。** 503 503 504 -确保在服务生命周期的设计阶段规划监控是很重要的。因此,负责监控的人员应该参与设计阶段,开发服务或组件的团队可以将服务移交给运维和建立监控。这包括架构师,软件开发团队,基础设施团队,设计人员,负责服务验证、可用性、连续性、容量和性能的团队,等等。 795 +**确保在服务生命周期的设计阶段规划监控是很重要的。因此,负责监控的人员应该参与设计阶段,开发服务或组件的团队可以将服务移交给运维和建立监控。这包括架构师,软件开发团队,基础设施团队,设计人员,负责服务验证、可用性、连续性、容量和性能的团队,等等。** 505 505 506 506 507 507 ... ... @@ -513,72 +513,222 @@ 513 513 == **5.1 信息交流** == 514 514 515 515 516 -监控和事态管理实践的效果基于所使用信息的质量。该信息包括但不限于以下信息: 807 +**监控和事态管理实践的效果基于所使用信息的质量。该信息包括但不限于以下信息:** 517 517 518 518 1. ((( 519 -客户和用户 810 +**客户和用户** 520 520 ))) 521 521 1. ((( 522 -服务,及其架构和设计,接受标准和SLA 813 +**服务,及其架构和设计,接受标准和SLA** 523 523 ))) 524 524 1. ((( 525 -合作伙伴和供应商,包括有关它们提供的服务的SLA信息 816 +**合作伙伴和供应商,包括有关它们提供的服务的SLA信息** 526 526 ))) 527 527 1. ((( 528 -规范服务提供的政策和要求 819 +**规范服务提供的政策和要求** 529 529 ))) 530 530 1. ((( 531 -持续的服务交付,包括: 822 +**持续的服务交付,包括:** 532 532 ))) 533 533 534 -* 有关当前运行的服务状态的信息 535 -* 服务功效需求和功用需求 536 -* 可用的服务指标 537 -* 服务依赖的配置项 538 -* 服务组件与其性能之间的相互依赖性 539 -* 有关重大事件的信息 540 -* 与已计划的和正在进行的变更及其对服务性能的预期影响有关的信息 541 -* 可用性,容量和性能目标 542 -* 负责服务和组件的团队 543 -* 有关服务的知识文章 825 +* **有关当前运行的服务状态的信息** 826 +* **服务功效需求和功用需求** 827 +* **可用的服务指标** 828 +* **服务依赖的配置项** 829 +* **服务组件与其性能之间的相互依赖性** 830 +* **有关重大事件的信息** 831 +* **与已计划的和正在进行的变更及其对服务性能的预期影响有关的信息** 832 +* **可用性,容量和性能目标** 833 +* **负责服务和组件的团队** 834 +* **有关服务的知识文章** 544 544 545 - 6.有关服务改进状态的信息 836 +**~ 6.有关服务改进状态的信息** 546 546 547 547 548 -该信息可以采用各种形式。实践的关键输入和输出在本指南的“ 价值流和流程”部分中列出。 839 +**该信息可以采用各种形式。实践的关键输入和输出在本指南的“ 价值流和流程”部分中列出。** 549 549 550 550 551 551 == **5.2 自动化和工具** == 552 552 553 553 554 -在某些情况下,监控和事态管理实践的工作可以大大受益于自动化(有关何时适用的详细信息,请参见本指南的“ 价值流和流程”部分)。在这种情况下,自动化是可能且有效的,它可能涉及表5.1中概述的解决方案。 845 +**在某些情况下,监控和事态管理实践的工作可以大大受益于自动化(有关何时适用的详细信息,请参见本指南的“ 价值流和流程”部分)。在这种情况下,自动化是可能且有效的,它可能涉及表5.1中概述的解决方案。** 555 555 556 -[[image:1642238337737-961.png]] 847 +|**流程活动**|**自动化手段**|**关键功能**|**实践的效果上的影响** 848 +|(% colspan="4" %)**监控规划流程** 849 +|((( 850 +**定义监控目标** 557 557 558 - [[image:1642238364744-334.png]]852 +**评估可用的度量监控标准** 559 559 560 -[[image:1642238466365-934.png]] 854 +**定义监控对象的事态类型** 855 +)))|((( 856 +**可视化工具(例如思维导图,服务图表,架构可视化)** 561 561 562 - [[image:1642238480595-735.png]]858 +**服务目录工具** 563 563 564 -表5.1 监控和事态管理活动的自动化解决方案 860 +**配置管理数据库** 861 +)))|((( 862 +**服务结构,依赖项,配置项等的可视化** 565 565 864 +**提供有关服务结构的信息,以及** 566 566 866 +**组件/ 服务的相互依赖性** 567 567 868 +**提供有关** 869 + 870 +**服务SLA和要求的信息** 871 +)))|**中** 872 +|((( 873 +**定义不同事态类型的阈值** 874 + 875 +**定义服务'运行状况模型'(端到端事件)** 876 + 877 +**定义事态关联和规则集** 878 +)))|((( 879 +**监控和事态管理工具** 880 + 881 +**ITSM工具** 882 + 883 +**软件定义的基础设施工具** 884 + 885 +**基础设施和平台内置的监控工具** 886 + 887 +**服务可视化工具** 888 +)))|**主动和被动性监控,事态设置,数据收集,数据分析,警报,规则设置**|**高** 889 +|**建立行动计划和需要响应和通知的职能部门之间的映射关系**|((( 890 +**监控和事态管理工具** 891 + 892 +**ITSM工具** 893 + 894 +**软件定义的基础设施工具** 895 + 896 +**协作和通讯工具** 897 + 898 +**集成总线** 899 + 900 +**自动化系统** 901 + 902 +**用于事态关联、行为监控与分析的AI和ML工具** 903 +)))|((( 904 +**ITSM工具集成(例如,基于事态的事件记录)** 905 + 906 +**通知和通讯,任务创建。** 907 + 908 +**自动化脚本运行** 909 + 910 +**AI和ML 事态关联,正常/异常行为分析** 911 +)))|**高** 912 +|(% colspan="4" %)**事态处理流程** 913 +|((( 914 +**事态检测** 915 + 916 +**事态日志记录** 917 + 918 +**事态过滤和相关性检查(可能是迭代的)** 919 + 920 +**事态分类** 921 + 922 +**事态响应选择** 923 + 924 +**发送通知、执行响应过程** 925 +)))|((( 926 +**监控和事态管理工具** 927 + 928 +**ITSM工具** 929 + 930 +**软件定义的基础设施工具** 931 + 932 +**协作和** 933 + 934 +**通讯工具** 935 + 936 +**集成总线** 937 + 938 +**自动化系统** 939 + 940 +**报告和仪表板工具和门户** 941 +)))|((( 942 +**ITSM工具集成(例如,基于事态的事件记录)** 943 + 944 +**通知和通讯,任务创建。** 945 + 946 +**自动化脚本运行** 947 + 948 +**AI和ML 事态关联,正常/异常行为分析** 949 + 950 +**报告和仪表板发布** 951 +)))|**高** 952 +|(% colspan="4" %)**监控和事态管理评审** 953 +|((( 954 +**评审重大事件或事态** 955 + 956 +**评审过滤和相关性分析** 957 + 958 +**评审服务“运行状况模式“** 959 + 960 +**评估事态的响应程序和自动化程度** 961 + 962 +**评审用于数据分析、相关性分析、人工智能和机器学习的工具** 963 + 964 +**评审监控工具收集的统计信息** 965 +)))|((( 966 +**可视化工具(例如思维导图,服务图表,架构可视化)** 967 + 968 +**统计分析工具,数据库** 969 + 970 +**服务目录工具** 971 + 972 +**配置管理数据库** 973 + 974 +**监控和事态管理工具** 975 + 976 +**ITSM工具** 977 + 978 +**协作和通讯工具** 979 + 980 +**报告和仪表板工具和门户** 981 + 982 +**业务分析工具** 983 + 984 +**基准工具和** 985 + 986 +**知识管理工具** 987 +)))|((( 988 +**服务结构,依赖项,配置项等的可视化** 989 + 990 +**提供有关服务结构和组件/ 服务相互依赖关系的信息** 991 + 992 +**提供有关服务SLA和要求,合规性和违规的信息** 993 + 994 +**提供重大事件的信息** 995 + 996 +**报告和仪表板发布** 997 + 998 +**通知,聊天** 999 + 1000 +**分析和评估** 1001 + 1002 +**知识共享** 1003 +)))|**中** 1004 + 1005 +**表5.1 监控和事态管理活动的自动化解决方案** 1006 + 1007 + 1008 + 568 568 ---- 569 569 570 570 = **6 合作伙伴和供应商** = 571 571 572 572 573 -只有很少的服务是使用自己的资源提供的。大多数(如果不是全部)依赖于其他服务,这些服务通常由组织以外的第三方提供(请参阅ITIL//®//Foundation:ITIL 4 Edition出版物中的第2.4节,了解服务关系的模型)。支持服务在供应商管理的实践指南中介绍了关系和依赖性。 1014 +**只有很少的服务是使用自己的资源提供的。大多数(如果不是全部)依赖于其他服务,这些服务通常由组织以外的第三方提供(请参阅ITIL//®//Foundation:ITIL 4 Edition出版物中的第2.4节,了解服务关系的模型)。支持服务在供应商管理的实践指南中介绍了关系和依赖性。** 574 574 575 -通信和云服务的开发使得外部监控服务非常受欢迎。配置项像服务器,数据库实例可以安装监控代理并将信息输入云存储库。这样的解决方案使其他使用了AI和机器学习(ML)的分析变得更容易,更便宜。这种解决方案中的机器学习(ML)通过合并来自数千个监控对象的数据以及对系统和用户的正常和异常行为理解的不断修正而得到改进。 1016 +**通信和云服务的开发使得外部监控服务非常受欢迎。配置项像服务器,数据库实例可以安装监控代理并将信息输入云存储库。这样的解决方案使其他使用了AI和机器学习(ML)的分析变得更容易,更便宜。这种解决方案中的机器学习(ML)通过合并来自数千个监控对象的数据以及对系统和用户的正常和异常行为理解的不断修正而得到改进。** 576 576 577 -另一个重要的考量是涉及到外包服务和组件监控权限的问题,因此组织会控制与服务提供者达成共识的度量标准。 1018 +**另一个重要的考量是涉及到外包服务和组件监控权限的问题,因此组织会控制与服务提供者达成共识的度量标准。** 578 578 579 -此外,必须将外部供应商开发的所有服务设计为具有监控功能,这意味着设计的服务必须能够提供有关其性能和运行状态的信息。 1020 +**此外,必须将外部供应商开发的所有服务设计为具有监控功能,这意味着设计的服务必须能够提供有关其性能和运行状态的信息。** 580 580 581 -当组织旨在确保监控和事态管理快速有效时,他们通常会试图同意与合作伙伴和供应商的密切合作,消除沟通,协作和决策方面的正式官僚障碍。有关更多信息,请参考供应商管理实践指南。 1022 +**当组织旨在确保监控和事态管理快速有效时,他们通常会试图同意与合作伙伴和供应商的密切合作,消除沟通,协作和决策方面的正式官僚障碍。有关更多信息,请参考供应商管理实践指南。** 582 582 583 583 584 584 ... ... @@ -587,19 +587,19 @@ 587 587 = **7 重要提醒** = 588 588 589 589 590 -实践指南的大部分内容都应作为组织在建立和发展自己的实践时可能考虑的领域的建议。实践指南是组织可能考虑的事情的目录,而不是答案的列表。使用ITIL 实践指南的内容时,组织应始终遵循ITIL 指导原则: 1031 +**实践指南的大部分内容都应作为组织在建立和发展自己的实践时可能考虑的领域的建议。实践指南是组织可能考虑的事情的目录,而不是答案的列表。使用ITIL 实践指南的内容时,组织应始终遵循ITIL 指导原则:** 591 591 592 - *聚焦价值593 - *从你所处的地方开始594 - *基于反馈迭代推进595 - *协作和提升可视化程度596 - *整体性思考和工作597 - *保持简单实用598 - *优化和自动化。1033 +1. **聚焦价值** 1034 +1. **从你所处的地方开始** 1035 +1. **基于反馈迭代推进** 1036 +1. **协作和提升可视化程度** 1037 +1. **整体性思考和工作** 1038 +1. **保持简单实用** 1039 +1. **优化和自动化。** 599 599 600 -有关指导原则及其应用程序的更多信息,请参见以下内容的第4.3节: 1041 +**有关指导原则及其应用程序的更多信息,请参见以下内容的第4.3节:** 601 601 602 -//ITIL®Foundation:ITIL 4Edition//. 1043 +**//ITIL®Foundation:ITIL 4Edition//.** 603 603 604 604 605 605 ... ... @@ -608,14 +608,14 @@ 608 608 = **8 致谢** = 609 609 610 610 611 -AXELOS Ltd非常感谢为本指南的开发做出贡献的每一个人。这些实践指南融合了ITIL社区前所未有的热情和反馈。AXELOS特别要感谢以下人员。 1052 +**AXELOS Ltd非常感谢为本指南的开发做出贡献的每一个人。这些实践指南融合了ITIL社区前所未有的热情和反馈。AXELOS特别要感谢以下人员。** 612 612 613 613 614 614 == **8.1 作者** == 615 615 616 -Dennis Cotter . 1057 +**Dennis Cotter .** 617 617 618 618 619 619 == **8.2 审稿人** == 620 620 621 -Roman Jouravlev. 1062 +**Roman Jouravlev.**
- 1642237641108-965.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -99.0 KB - Content
- 1642237710166-351.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -109.4 KB - Content
- 1642237738910-108.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -26.9 KB - Content
- 1642237833826-395.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -68.3 KB - Content
- 1642237866153-106.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -50.7 KB - Content
- 1642237945213-442.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -117.1 KB - Content
- 1642237990168-323.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -59.9 KB - Content
- 1642238024237-336.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -51.8 KB - Content
- 1642238049838-958.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -39.8 KB - Content
- 1642238202293-164.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -45.3 KB - Content
- 1642238225338-195.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -59.3 KB - Content
- 1642238253882-729.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -21.9 KB - Content
- 1642238337737-961.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -69.5 KB - Content
- 1642238364744-334.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -39.6 KB - Content
- 1642238421478-919.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -94.3 KB - Content
- 1642238466365-934.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -49.1 KB - Content
- 1642238480595-735.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -71.7 KB - Content
- 1642238606576-143.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -33.5 KB - Content