作者:老孙
适用:2026 年下半年系统规划与管理师(系规)备考
阶段:阶段六 实战演练 第 11 讲(案例分析精讲第 3 讲)
字数目标:≥9000 中文字符
一、本讲定位与学习目标
本讲是案例分析精讲第 3 讲,聚焦"运维与业务连续性"主题案例。运维与连续性是系规案例分析的高频主题,涉及运维成熟度、监控告警、灾备 RTO/RPO、备份策略、AIOps 等。本讲与第 66 讲的 IT 服务管理有交叉,但更侧重运维实操与连续性保障。学员目标:掌握运维与连续性类案例的作答方法,能完整作答相关案例。
本讲学习目标:
- 以清华园物业智慧邻里平台运维实战为背景,精讲运维与连续性类案例;
- 提供多个完整案例 + 分问题 + 参考答案 + 评分要点;
- 重点强化 RTO/RPO 计算与灾备方案设计的案例作答;
- 提炼运维与连续性案例的高频考点。
二、虚构教学案例承接
本讲案例以清华园物业(智慧邻里 2.0 项目)和北京知知致用(IT 服务商)两个虚构教学案例为背景。(提示:清华园物业、北京知知致用均为本课程虚构教学案例,与现实任何同名实体无关,仅用于教学演示。)
三、运维与连续性案例考点全景图

四、案例一·运维成熟度提升(完整案例)
案例背景
清华园物业(虚构教学案例)智慧邻里平台运维长期依赖两名老师傅的个人经验,无标准流程、无文档、无量化指标。两位老师傅一旦休假,运维几乎瘫痪。公司希望系统提升运维能力。
分问题 1(8 分)
请判断该运维当前处于运维能力成熟度哪一级,并说明理由。
参考答案
第一,处于一级初始级(4 分)。理由:运维依赖个人经验、无标准流程、无文档,属于典型的初始级特征——靠"救火式"和"老师傅",缺乏制度化。
第二,风险分析(4 分)。一级初始级的核心风险是"人走业务瘫"——关键人员离职或休假即导致运维失效,运维质量不可预期,事故频发。
分问题 2(10 分)
请提出提升运维成熟度的路径。
参考答案
第一,建立标准流程(迈向三级稳健级)(4 分)。建立监控、巡检、变更、应急、备份等标准化流程文档(SOP),实现制度化、文档化,摆脱对个人的依赖。
第二,引入量化管理(迈向四级量化级)(3 分)。建立 MTTR、MTBF、可用性、SLA 达成率等量化指标,用数据驱动运维管理。
第三,持续优化智能化(迈向五级优化级)(3 分)。引入 AIOps 实现故障预测与自愈,持续改进运维水平。提升路径遵循"流程标准化→数据量化→智能优化",循序渐进不可跨越。
五、案例二·监控告警体系(完整案例)
案例背景
北京知知致用运维清华园物业平台,运维人员每天面对上千条告警(告警风暴),重要告警被淹没,且故障总是业主投诉后才发现,属于被动运维。
分问题(10 分)
请提出建立有效监控告警体系的方案。
参考答案
第一,分层监控(3 分)。建立基础设施监控(CPU/内存/磁盘/网络)、应用监控(APM)、业务监控(KPI)三层监控体系,全面覆盖。
第二,四大黄金指标(3 分)。落地 Google SRE 四大黄金指标——延迟、流量、错误、饱和度,聚焦核心指标。
第三,告警收敛(2 分)。通过去重、聚合、关联分析收敛告警风暴,解决重要告警被淹没问题。
第四,主动运维(2 分)。从被动(投诉后发现)转向主动(监控预警 + 预测性维护),故障早发现早处置。
六、案例三·灾备 RTO/RPO(完整案例)
案例背景
清华园物业智慧邻里平台某日机房遭遇火灾,由于无异地灾备,业主数据丢失了最近 8 小时的交易记录,系统 3 天后才在新机房重建恢复。事后公司痛定思痛,要求建立灾备体系。
分问题 1(8 分·计算/分析题)
请分析此次事故中的 RTO 和 RPO 实际值,并说明应如何设定目标。
参考答案
第一,实际 RTO(2 分)。实际恢复时间 3 天(72 小时),即 RTO 实际 = 72 小时,过长。
第二,实际 RPO(2 分)。丢失最近 8 小时数据,即 RPO 实际 = 8 小时,过大。
第三,目标设定(4 分)。应根据业务影响分析 BIA 设定合理目标。智慧邻里平台核心业务(缴费、门禁)建议 RTO ≤4 小时、RPO ≤1 小时。RTO 衡量恢复时长、RPO 衡量数据丢失量,越小要求越高、灾备成本越高。
分问题 2(8 分)
请说明灾难恢复能力的建设方案。
参考答案
第一,开展业务影响分析 BIA(2 分)。识别关键业务及中断影响,确定 RTO/RPO 优先级。
第二,按 GB/T 20988 建设灾备(3 分)。灾难恢复能力分 6 级,级别越高 RTO/RPO 越小。智慧邻里平台建议建设到 5 级(实时数据传输 + 完整设备),实现 RTO=4 小时、RPO=1 小时。
第三,灾备演练(3 分)。制定应急预案,定期开展灾备演练,验证 RTO/RPO 可达成。建议采用异地灾备或同城双活消除单点。
七、案例四·备份策略(完整案例)
案例背景
清华园物业智慧邻里平台曾遭遇勒索病毒攻击,业主数据被加密,因备份策略不当(仅本地单一备份且未验证),导致数据无法恢复,损失惨重。
分问题(10 分)
请提出科学的备份策略。
参考答案
第一,遵循 3-2-1 原则(4 分)。3 份数据副本、2 种不同存储介质、1 份异地保存。本案例仅本地单一备份违反此原则,应增加副本、介质和异地备份。
第二,组合备份策略(3 分)。采用全量 + 增量(或差异)组合,如每周全量 + 每日增量,兼顾空间与恢复需求。
第三,定期恢复演练(3 分)。备份必须定期做恢复演练验证可用性,本案例"未验证"导致备份形同虚设。隔离备份(如离线/不可变备份)可防勒索病毒加密备份。
八、案例五·业务连续性 BIA(完整案例)
案例背景
清华园物业拟建立业务连续性管理体系,但不知如何确定哪些系统优先保障、恢复目标如何设定。北京知知致用建议先做业务影响分析。
分问题(8 分)
请说明业务影响分析 BIA 的作用与步骤。
参考答案
第一,BIA 作用(2 分)。评估业务中断的影响,确定关键业务及其恢复优先级、RTO/RPO 目标,是连续性管理的基础。
第二,识别关键业务(2 分)。梳理智慧邻里平台各业务(缴费、门禁、报修、巡检),评估各业务中断的影响程度。
第三,确定恢复优先级(2 分)。门禁、缴费等影响大的业务优先恢复(RTO/RPO 更严),报修等次之。
第四,设定恢复目标(2 分)。基于 BIA 结果为各业务设定 RTO/RPO,作为灾备建设依据。