数据工程与实时计算¶
聚焦日志埋点、ETL/ELT、数仓分层、流批一体、质量治理与成本优化。
知识框架¶
- DDIA 架构总脑图 - 卷一全书体例(§1–§6 正文干货 + 附录 A 节点百科);查询 §0/Canvas + Markmap 目录 + 拓扑链路
- 数据密集型系统设计 — 知识框架 - 三大篇地图 + 6h 时间轴(Ch.3 / Part 2 正文已拆出)
- DDIA Ch.3 存储与检索 — 复习专题 - 哈希 / B+Tree / LSM、全景串讲、Java MVP;6h 第 2 段 45min
- DDIA Part 2 分布式数据系统 — 复习专题 - Ch.5–9:复制 / 分区 / 事务 / 一致性;完整第二篇 150–180min
- DDIA Ch.10 批处理 — 复习专题 - 历史脉络 → 挑战 → 解法;6h 第 3 段 60min
- DDIA Ch.11 流处理 — 复习专题 - 历史脉络 → 挑战 → 解法;6h 第 4 段 90min
算法基础(与 DDIA Ch.3 / 对账思维对照)¶
核心组件学习路径¶
ClickHouse OLAP¶
- ClickHouse 深度解析 - MergeTree 引擎、索引设计、查询优化
数据建模¶
- 数据建模 - 数仓分层、指标治理;含「dbt 零基础」
任务调度¶
- Airflow 调度 - DAG 设计、回填机制、告警
实时计算¶
- Flink 实时计算 - 时间语义、Watermark、Exactly-Once
容器化部署¶
- Docker 部署 - Compose 编排、网络、存储
待完善¶
- 指标口径与语义层设计
- Flink/Spark 作业治理
- 数据血缘、质量、回溯机制