作者:老孙
适用:2026 年下半年系统规划与管理师(系规)备考
阶段:阶段六 实战演练 第 10 讲(案例分析精讲第 2 讲)
字数目标:≥9000 中文字符
一、本讲定位与学习目标
本讲是案例分析精讲第 2 讲,聚焦"IT 服务管理"主题案例。IT 服务管理是系规案例分析的核心高频主题——几乎每年案例分析都有一道 IT 服务管理相关大题,涉及 ITSS、ITIL、SLA、事件问题变更管理等。学员目标:掌握 IT 服务管理类案例的作答方法,能完整作答服务管理主题案例。
本讲学习目标:
- 以北京知知致用为清华园物业提供运维服务为背景,精讲 IT 服务管理类案例;
- 提供 5 个完整案例 + 分问题 + 参考答案 + 评分要点;
- 提炼 IT 服务管理案例的高频考点(事件问题区分、SLA、变更管理、可用性计算);
- 强化第 65 讲四步作答法在服务管理案例中的应用。
二、虚构教学案例承接
本讲案例以清华园物业(智慧邻里 2.0 项目)和北京知知致用(IT 服务商)两个虚构教学案例为背景。(提示:清华园物业、北京知知致用均为本课程虚构教学案例,与现实任何同名实体无关,仅用于教学演示。)
三、IT 服务管理案例考点全景图

四、案例一·事件与问题管理(完整案例)
案例背景
北京知知致用(虚构教学案例)为清华园物业智慧邻里 2.0 平台提供运维服务。近三个月平台频繁出现业主 APP 登录卡顿,每次运维人员重启服务后短暂恢复,但同类故障在三个月内累计发生 50 余次。运维团队每次都按"重启恢复"处理,从未深究原因。业主投诉不断,清华园物业很不满意。
分问题 1(8 分)
请用 ITIL 理论分析该运维团队处理方式存在的问题。
参考答案
第一,混淆了事件管理与问题管理(4 分)。运维团队每次"重启恢复"属于事件管理(目标是尽快恢复服务),但同类故障三个月发生 50 余次,说明背后存在未消除的根本原因。运维团队只做事件管理、未启动问题管理(目标是找出并消除根因),导致故障反复。
第二,缺乏问题管理流程(4 分)。重复事件应触发问题管理,通过根因分析(如鱼骨图、5Why)找出根本原因(可能是内存泄漏、连接池不足、数据库慢查询等),从根本上解决,而非反复"重启救火"。
分问题 2(8 分)
请说明事件管理与问题管理的区别与联系。
参考答案
区别:
第一,目标不同(2 分)。事件管理目标是尽快恢复服务正常运行(治标);问题管理目标是找出并消除根本原因(治本)。
第二,时效不同(2 分)。事件管理强调快速响应恢复;问题管理强调深入分析,不追求即时。
联系:
第三,触发关系(2 分)。重复发生的事件或重大事件应触发问题管理。
第四,协同关系(2 分)。问题管理找到根因后,通过变更管理实施根本解决,减少未来事件发生。事件、问题、变更三者协同。
五、案例二·SLA 与可用性计算(完整案例)
案例背景
北京知知致用与清华园物业签订运维 SLA,约定智慧邻里平台年度可用性不低于 99.9%。某年度平台因故障累计停机 12 小时。已知该年度平台计划运行时间为 8760 小时。
分问题 1(6 分·计算题)
请计算该年度平台实际可用性,并判断是否达到 SLA 要求。
参考答案
实际可用性 = (计划运行时间 - 停机时间) / 计划运行时间 × 100%(2 分)
= (8760 - 12) / 8760 × 100% = 8748 / 8760 × 100% ≈ 99.86%(2 分)
判断:99.86% < 99.9%,未达到 SLA 要求,违约(2 分)。
补充:99.9% 对应年度允许停机 8760 × 0.1% = 8.76 小时,实际停机 12 小时超出,违约。
分问题 2(8 分)
请说明 SLA 的核心要素及 SLA、OLA、UC 三者的关系。
参考答案
SLA 核心要素(4 分):服务范围、服务级别指标(可用性、响应时间、解决时间)、双方责任、违约处理、变更机制、报告机制。
SLA、OLA、UC 关系(4 分):
第一,SLA(服务级别协议)是服务提供方与客户之间的协议。
第二,OLA(运营级别协议)是服务提供方内部各支持团队之间的协议。
第三,UC(支持合同/支撑契约)是服务提供方与外部供应商之间的合同。
三者层层支撑:UC 和 OLA 共同保障 SLA 的实现。
六、案例三·变更与发布管理(完整案例)
案例背景
北京知知致用为清华园物业智慧邻里平台上线"业主投票"新功能,开发完成后运维人员未经评估直接在业务高峰期将新版本部署到生产环境,结果引发系统崩溃,影响 8 万业主使用 2 小时。
分问题(10 分)
请用 ITIL 变更管理理论分析此次事故的问题及改进措施。
参考答案
问题:
第一,未经变更评估(2 分)。新功能上线属于重大变更,应提交 RFC(变更请求)经 CAB(变更咨询委员会)评估批准,运维人员擅自部署违反变更管理流程。
第二,时机选择不当(2 分)。在业务高峰期部署,未做变更时机规划,放大了影响。
第三,缺乏回退方案(2 分)。未准备回退预案,崩溃后无法快速恢复。
改进措施:
第四,建立变更管理流程(2 分)。所有变更提交 RFC,经 CAB 评估(含 7R 评估:原因、回报、风险、资源等),批准后实施。
第五,规划变更时机与回退(2 分)。选择业务低峰期部署,准备回退方案,通过发布管理规范实施,必要时灰度发布。
七、案例四·ITSS 体系建设(完整案例)
案例背景
北京知知致用为提升运维服务能力,拟申请 ITSS 三级认证。公司目前运维靠少数老员工经验,无标准流程文档,工具分散,知识无沉淀。
分问题(10 分)
请用 ITSS 的 PPTR 四要素分析北京知知致用应如何建设运维服务能力。
参考答案
ITSS 以人员、流程、技术、资源(PPTR)四要素评估服务能力。北京知知致用应:
第一,人员(People)(2.5 分)。培养并认证运维人员,建立岗位能力体系,提高 ITSS、ITIL 持证比例,改变依赖少数老员工的局面。
第二,流程(Process)(2.5 分)。建立标准化运维流程文档(事件、问题、变更、发布、配置、SLM 等),实现流程制度化,达到运维成熟度三级稳健级。
第三,技术(Technology)(2.5 分)。建设统一运维平台(监控、APM、CMDB、自动化、AIOps),替代分散工具。
第四,资源(Resource)(2.5 分)。建立知识库(KEDB 已知错误库 + 解决方案库)、备件库、服务交付设施,沉淀经验。