软考找老孙
软考找老孙guoruankao.com
付费第60讲 / 共81讲

大话第16章②:运维管理

更新于

阅读说明:这是《大话系规官方教材伴读》系列的付费正文。本系列按官方教材原章节顺序,一节一节用大白话讲透第2版教材。非会员可免费试读本讲约百分之二十。

这套伴读怎么用、和《系规精品图文课程》怎么搭着看,先读开篇导读:《大话系规官方教材伴读·开篇:这本又厚又硬的书,我陪你一节一节读完》。

付费方式:独立合集《大话系规官方教材伴读》合集价 299 元,购买后全部讲次解锁(微信小程序或官方网站均可学习)。已订阅《系规精品图文课程》的同学不再单独付费,登录学习平台即可直接读全部内容。

以下为本讲正文 ↓

大话第16章②:运维管理

一、先问你一个会卡住的问题

同学,咱们接着第 16 章往下走,这一讲是第二节,运维管理,对应教材 16.2。

先讲个你天天都在经历、但可能没往这上头想的事。你早上打开手机,点外卖、刷新闻、扫码坐地铁、用网银转账——这些 App 和系统,是不是几乎从不"关门"?凌晨三点你睡不着想点个夜宵,它也照样能用。你有没有想过:是谁在背后保证这些系统一年三百六十五天、一天二十四小时不出岔子?

答案就是运维。

软件开发完上线,只是万里长征第一步。真正的考验在后头——往后好几年,这套系统得稳稳当当地跑着,不能动不动崩、不能数据丢、出了毛病得有人能第一时间发现并修好。这件事,就叫运维(运行维护)。而要把运维干好,光靠人盯着屏幕熬夜是不行的,得靠一整套专门的工具。

第 16 章第二节,就是把这套运维工具一类一类摆给你看。教材开篇说得很清楚:对 IT 运维服务体系进行规划建设并有效实施和管理,离不开运维工具的支持。监控工具、过程管理工具、专用工具在运维中的使用,可以显著提高运维的可视性、过程组织的有效性,以及操作的便利性和安全性。

这一节是第 16 章里内容最多、小节最密的一段,从 16.2.1 一直排到 16.2.7,足足七个小节:监控工具、过程管理工具、自动化专用工具、服务台、知识管理、备件管理、新型运维工具。听着多,别慌。这一讲,我就把这七块用你身边的事儿,一块一块给你翻译清楚。讲完你会发现,这一整套工具,干的就是一件事:让一套已经上线的系统,被看得见、管得住、修得快、不掉链子

二、这一节在教材里的位置

先让你心里有张地图,知道自己站在哪儿。

教材位置 官方小节 这一讲的大白话主题
16.2 运维管理 系统上线后靠什么工具稳稳运行
16.2.1 监控工具 给系统装"体检仪",时刻盯着健康状况
16.2.2 过程管理工具 按服务级别协议把 IT 服务全程管起来(ITSM)
16.2.3 自动化专用工具 让机器替人干重复活:作业调度、操作自动化
16.2.4 服务台 用户和运维之间的"单一接待窗口"
16.2.5 知识管理 把经验存进知识库,别让问题重复踩坑
16.2.6 备件管理 管好备用的硬件软件,坏了能马上换
16.2.7 新型运维工具 AIOps 智能运维、DevOps、云管理这些新玩法

第 16 章在系规里我给它定 B 档。运维管理这一节虽然不是论文顶配章,但它和系规另一块重头——信息系统服务管理(第 12 章)——是血脉相连的。第 12 章讲服务管理的"道"(理念、流程、生命周期),这一节讲服务管理落地用的"器"(具体工具)。你学这一节的时候,脑子里要时不时想起第 12 章那套服务管理的思路,两边一对照,记得更牢。

我把话说在前头:这一节工具和缩写特别多,ITSM、AIOps、DevOps、CMP、CSM……一个接一个。你别想着一次全背死。跟着我的例子走,先把每一类工具是干啥的、有几个代表、几个核心缩写的全称记住,就够应付选择题了。

三、大白话逐节精讲

1. 监控工具:给系统装一台"体检仪"

进 16.2.1 监控工具。

教材说,监控工具主要是对运行维护服务对象进行数据采集和监控,评估可能导致运行故障的因素。

大白话:监控工具,就是给系统装的那台"体检仪加报警器"。它时时刻刻盯着系统的各项指标——服务器累不累、内存够不够、硬盘满没满、网络通不通——一旦哪个指标不对劲,马上报警,让运维人员第一时间知道"病人要出事了"。

教材把监控工具按对象分成三类,你记一下这个分类:

  • IT 基础设施监控:盯硬件层面的,像主机、网络、存储、应用、机房动力环境(机房的电、温度这些)。
  • 性能监控:盯运行快慢的,包括业务性能、应用性能、网络性能。
  • 业务运营监控:盯业务层面的,包括业务运营管理、业务流程监控、业务容量监控。

教材还说,监控工具可以只盯单一功能,也可以是一个综合性的运维监控平台。这就引出了后面要讲的"统一运维监控平台"。

教材重点介绍了三个常见的监控工具,你记住它们各自的特点:

  • Zabbix:一个组织级的开源分布式监控解决方案,基于网页界面提供分布式系统监控和网络监控。它能实时监控数千台服务器、虚拟机,还有应用、数据库、网站、云等等,能采集百万级的监控指标。它适应性广,能跑在 Linux、Mac OS X 等几乎所有主流平台上。记住关键词:开源、分布式、监控量大、跨平台广。
  • Nagios:一款监控系统、网络和 IT 基础设施的开源应用。它能根据设定的阈值和关键指标定期检查系统或服务状态,发现异常时通过短信、邮件及时通知运维人员,还能跑自动脚本去纠正问题。它有两个版本——免费的 Nagios Core(侧重监控服务可用性,但不支持网页方式管理配置,配置不太好用)和付费的 Nagios XI(高级版)。记住关键词:开源、有免费 Core 和付费 XI 两版、阈值告警。
  • Prometheus:一套开源的系统监控报警框架,既适合硬件指标监控,也适合高动态的微服务和云环境监控。它有两个突出特点,是考点:第一,它采用"拉(Pull)模型"——传统监控系统大多是客户端主动把数据"推(Push)"给服务端,而 Prometheus 反过来,由服务端主动去目标那儿"拉"数据,这样更适合微服务架构、也更方便横向扩展。第二,它支持"时序数据"——就是按时间顺序记录系统状态变化的数据,特别适合对实时性要求高的场景,比如无人驾驶车辆数据监控、金融证券实时数据监控。记住关键词:开源、拉模型(不是推模型)、时序数据、适合微服务和云。

这里 Prometheus 的"拉模型 vs 推模型"是个高频考点,你单独记牢:传统监控是客户端推(Push),Prometheus 是服务端拉(Pull)

以上为部分预览,完整内容请登录后查看
微信扫码登录

登录查看完整内容

本讲属于"大话系规官方教材伴读"课程内容。微信扫码登录后,系统会自动识别你的课程权限并直接返回本页。

使用微信扫描二维码,授权后自动登录并返回本页

二维码未显示?点此打开

相关推荐

继续深入学习「大话系规官方教材伴读」其他课时

意见反馈
回到顶部咨询