Wiki source code of 在可观察性时代,如何有效利用运维大数据
Last modified by superadmin on 2025/01/15, 23:05
Show last authors
author | version | line-number | content |
---|---|---|---|
1 | |||
2 | |||
3 | (% style="text-align:center" %) | ||
4 | [[image:1736587026040.png||height="169" width="411"]] | ||
5 | |||
6 | |||
7 | “全面可观测性时代,如何有效运用运维大数据”这一主题,深入分析在运维领域中,如何通过充分利用大数据来增强系统的可观测性,进而实现对IT系统的更高效管理和优化。文章内容共分为四个部分,依次阐述了可观测性的定义、所面临的挑战、具体的技术解决方案以及最终的总结。 | ||
8 | |||
9 | |||
10 | **可观测性概念** | ||
11 | |||
12 | 可观测性这一概念源自控制理论,它指的是通过分析系统的外部输出来推断其内部状态的能力。它并非仅限于指标、日志和调用链的简单堆砌,而是涵盖了对未知问题的深入探究,即所谓的“未知的未知”。实现系统的可观测性,需要正确地收集数据并进行深入的数据分析。 | ||
13 | |||
14 | |||
15 | **可观测性与监控的关系** | ||
16 | |||
17 | 监控是提升系统可观测性所采取的措施,而可观测性本身则是衡量系统属性(例如健壮性、性能、扩展性等)的一个重要指标。监控是实现高可观测性的必要手段,但并非唯一条件。 | ||
18 | |||
19 | |||
20 | **已有的技术基础** | ||
21 | |||
22 | 在运维领域,目前已有一定的技术基础,包括数据采集(指标、日志、调用链)、数据统一标准(OpenTelemetry)、数据管理系统(TSDB、ES、GraphDB、数仓等)、算法(异常检测、日志聚类/异常检测、根因分析、异构数据融合)以及可视化工具(Grafana、Kibana、GraphVis)。 | ||
23 | |||
24 | |||
25 | **面临的挑战** | ||
26 | |||
27 | 尽管已有一定的技术基础,但仍然存在一些挑战,包括数据深度关联、数据灵活探索和数据统一管理。数据深度关联需解决标签压力和浅层融合问题,目标是实现指标、日志、调用链、告警的语义关联。数据统一管理需解决异构数据的关系代数和查询优化问题,目标是构建高效的异构数据管理系统。数据灵活探索需融合查询和算法,目标是增强对复杂对象的查询能力。 | ||
28 | |||
29 | |||
30 | **技术解决方案** | ||
31 | |||
32 | 为应对上述挑战,提出了多种技术解决方案。在数据深度关联方面,通过实体提取、实体图和时序元数据融合以及文本特征和时序特征的融合,实现异构数据的深度关联。在异构数据查询系统方面,支持时间序列、文本、图、键值等异构数据的统一管理和查询。面向关联的查询系统则通过基于时间、属性值和类型的关联查询,以及基于bitmap的数据分块和查询处理,实现指标、日志、调用链的关联查询。基于自然语言的数据探索通过自然语言到SQL的转化引擎,降低学习门槛,提高表达能力和扩展性。交互式数据分析引擎则融合了多种算法,支持不同语言开发的算法和输入数据格式的智能学习。 | ||
33 | |||
34 | |||
35 | |||
36 | 可观测性的核心在于解决“未知的未知”问题,所面临的三个主要挑战是数据的深度关联、统一查询和灵活探索。通过整合异构数据、查询和算法,可以提升运维过程中数据探索的能力,从而更有效地应对系统中的未知问题。 | ||
37 | |||
38 | |||
39 | |||
40 | [[IT运维管理:ITIL先锋论坛—全面可观测性时代,如何用好运维大数据.pdf>>url:https://itil-foundation.cn/forum.php?mod=attachment&aid=NDYwNTl8Y2IwMDcxOWZ8MTczNjU4Njg1OHwyMDY2M3wzNjQ1MzU=]] |