阅读说明：这是《大话系规官方教材伴读》系列的付费正文。本系列按官方教材原章节顺序，一节一节用大白话讲透第2版教材。非会员可免费试读本讲约百分之二十。

这套伴读怎么用、和《系规精品图文课程》怎么搭着看，先读开篇导读：《大话系规官方教材伴读·开篇：这本又厚又硬的书，我陪你一节一节读完》。

付费方式：独立合集《大话系规官方教材伴读》合集价 299 元，购买后全部讲次解锁（微信小程序或官方网站均可学习）。已订阅《系规精品图文课程》的同学不再单独付费，登录学习平台即可直接读全部内容。

以下为本讲正文 ↓

大话第16章②：运维管理

一、先问你一个会卡住的问题

同学，咱们接着第 16 章往下走，这一讲是第二节，运维管理，对应教材 16.2。

先讲个你天天都在经历、但可能没往这上头想的事。你早上打开手机，点外卖、刷新闻、扫码坐地铁、用网银转账——这些 App 和系统，是不是几乎从不"关门"？凌晨三点你睡不着想点个夜宵，它也照样能用。你有没有想过：是谁在背后保证这些系统一年三百六十五天、一天二十四小时不出岔子？

答案就是运维。

软件开发完上线，只是万里长征第一步。真正的考验在后头——往后好几年，这套系统得稳稳当当地跑着，不能动不动崩、不能数据丢、出了毛病得有人能第一时间发现并修好。这件事，就叫运维（运行维护）。而要把运维干好，光靠人盯着屏幕熬夜是不行的，得靠一整套专门的工具。

第 16 章第二节，就是把这套运维工具一类一类摆给你看。教材开篇说得很清楚：对 IT 运维服务体系进行规划建设并有效实施和管理，离不开运维工具的支持。监控工具、过程管理工具、专用工具在运维中的使用，可以显著提高运维的可视性、过程组织的有效性，以及操作的便利性和安全性。

这一节是第 16 章里内容最多、小节最密的一段，从 16.2.1 一直排到 16.2.7，足足七个小节：监控工具、过程管理工具、自动化专用工具、服务台、知识管理、备件管理、新型运维工具。听着多，别慌。这一讲，我就把这七块用你身边的事儿，一块一块给你翻译清楚。讲完你会发现，这一整套工具，干的就是一件事：让一套已经上线的系统，被看得见、管得住、修得快、不掉链子。

二、这一节在教材里的位置

先让你心里有张地图，知道自己站在哪儿。

教材位置	官方小节	这一讲的大白话主题
16.2	运维管理	系统上线后靠什么工具稳稳运行
16.2.1	监控工具	给系统装"体检仪"，时刻盯着健康状况
16.2.2	过程管理工具	按服务级别协议把 IT 服务全程管起来（ITSM）
16.2.3	自动化专用工具	让机器替人干重复活：作业调度、操作自动化
16.2.4	服务台	用户和运维之间的"单一接待窗口"
16.2.5	知识管理	把经验存进知识库，别让问题重复踩坑
16.2.6	备件管理	管好备用的硬件软件，坏了能马上换
16.2.7	新型运维工具	AIOps 智能运维、DevOps、云管理这些新玩法

第 16 章在系规里我给它定 B 档。运维管理这一节虽然不是论文顶配章，但它和系规另一块重头——信息系统服务管理（第 12 章）——是血脉相连的。第 12 章讲服务管理的"道"（理念、流程、生命周期），这一节讲服务管理落地用的"器"（具体工具）。你学这一节的时候，脑子里要时不时想起第 12 章那套服务管理的思路，两边一对照，记得更牢。

我把话说在前头：这一节工具和缩写特别多，ITSM、AIOps、DevOps、CMP、CSM……一个接一个。你别想着一次全背死。跟着我的例子走，先把每一类工具是干啥的、有几个代表、几个核心缩写的全称记住，就够应付选择题了。

三、大白话逐节精讲

1. 监控工具：给系统装一台"体检仪"

进 16.2.1 监控工具。

教材说，监控工具主要是对运行维护服务对象进行数据采集和监控，评估可能导致运行故障的因素。

大白话：监控工具，就是给系统装的那台"体检仪加报警器"。它时时刻刻盯着系统的各项指标——服务器累不累、内存够不够、硬盘满没满、网络通不通——一旦哪个指标不对劲，马上报警，让运维人员第一时间知道"病人要出事了"。

教材把监控工具按对象分成三类，你记一下这个分类：

IT 基础设施监控：盯硬件层面的，像主机、网络、存储、应用、机房动力环境（机房的电、温度这些）。
性能监控：盯运行快慢的，包括业务性能、应用性能、网络性能。
业务运营监控：盯业务层面的，包括业务运营管理、业务流程监控、业务容量监控。

教材还说，监控工具可以只盯单一功能，也可以是一个综合性的运维监控平台。这就引出了后面要讲的"统一运维监控平台"。

教材重点介绍了三个常见的监控工具，你记住它们各自的特点：

Zabbix：一个组织级的开源分布式监控解决方案，基于网页界面提供分布式系统监控和网络监控。它能实时监控数千台服务器、虚拟机，还有应用、数据库、网站、云等等，能采集百万级的监控指标。它适应性广，能跑在 Linux、Mac OS X 等几乎所有主流平台上。记住关键词：开源、分布式、监控量大、跨平台广。
Nagios：一款监控系统、网络和 IT 基础设施的开源应用。它能根据设定的阈值和关键指标定期检查系统或服务状态，发现异常时通过短信、邮件及时通知运维人员，还能跑自动脚本去纠正问题。它有两个版本——免费的 Nagios Core（侧重监控服务可用性，但不支持网页方式管理配置，配置不太好用）和付费的 Nagios XI（高级版）。记住关键词：开源、有免费 Core 和付费 XI 两版、阈值告警。
Prometheus：一套开源的系统监控报警框架，既适合硬件指标监控，也适合高动态的微服务和云环境监控。它有两个突出特点，是考点：第一，它采用"拉（Pull）模型"——传统监控系统大多是客户端主动把数据"推（Push）"给服务端，而 Prometheus 反过来，由服务端主动去目标那儿"拉"数据，这样更适合微服务架构、也更方便横向扩展。第二，它支持"时序数据"——就是按时间顺序记录系统状态变化的数据，特别适合对实时性要求高的场景，比如无人驾驶车辆数据监控、金融证券实时数据监控。记住关键词：开源、拉模型（不是推模型）、时序数据、适合微服务和云。

这里 Prometheus 的"拉模型 vs 推模型"是个高频考点，你单独记牢：传统监控是客户端推（Push），Prometheus 是服务端拉（Pull）。

大话第16章②：运维管理

大话第16章②：运维管理

一、先问你一个会卡住的问题

二、这一节在教材里的位置

三、大白话逐节精讲

1. 监控工具：给系统装一台"体检仪"

登录查看完整内容

相关推荐