本讲是系规阶段四大数据专题——数字化的基石。继前沿应用导论之后,本讲从大数据切入八大技术深度专题。
三大主线一次讲透:
大数据 5V 核心特征(重头戏):Volume 大量(TB / PB / EB 级)/ Velocity 高速(实时 / 流式)/ Variety 多样(结构化 / 半结构化 / 非结构化)/ Veracity 真实性(质量与可信度)/ Value 价值(低密度高总量)。5V 是大数据定义本质——案例分析常考"下列哪项属于 X 特征"。5V 之外的扩展 V——Visualization 可视化、Variability 可变性——了解即可,考试以 5V 为准。
大数据技术栈(5 层架构):采集层(Kafka / Flume / Sqoop)/ 存储层(HDFS / S3 / HBase)/ 计算层(Spark / Flink / MapReduce)/ 服务层(Hive / Presto / ClickHouse)/ 应用层(BI / 报表 / 数据科学)。演进路径——数据仓库 → 数据湖 → 湖仓一体(Delta Lake / Iceberg / Hudi)。配套清华园物业 2024 年从数据仓库演进到湖仓一体的样板。
数据治理与 DCMM 五级(重头戏):DCMM 数据管理能力成熟度模型——L1 初始 / L2 受管理 / L3 稳健 / L4 量化管理 / L5 优化。每一级的关键特征和判断标准。配套数据治理 8 大能力域——战略 / 治理 / 架构 / 应用 / 安全 / 质量 / 标准 / 生存期。8 大能力域是 DCMM 评估的金标准。
后半段给清华园物业数据中台建设 18 个月样板——从混乱数据到统一中台的完整过程。学完这一讲,你拥有了系规论文"大数据规划"主题的完整答题素材,案例分析"数据中台建设"题型手里有标准模板。
