📖 数据工程大故事 — 用厨房供应链理解
想象一家大餐厅的供应链。数据工程师就是这个供应链的设计师。
🚚 食材供应商送货上门 — 有的按时送(定时批次),有的实时到(每秒都有)。
AWS 侧:youtube 字幕、用户产出句子、日志事件……都需要「进门」。用 Kinesis(实时货车)或 Lambda + EventBridge(定时接单)把数据收进来。
🔪 厨师把生食材切块、去皮、分类放好才能炒菜 — 不能直接把整头猪扔进锅里。
AWS 侧:raw 素材(.txt / .json)→ Glue 清洗切分 → 结构化列存(Parquet)→ 放进数据湖。japanese-climb 里的 pack.py 就是在做这件事。
🧊 冷冻库放长期备货(Glacier),冰箱放近期用料(S3 Standard),灶台旁放今天要用的(DynamoDB / Aurora)。
AWS 侧:按访问频率分层放。学习包归档 → S3 Glacier;用户实时产出 → DynamoDB;分析查询 → Redshift / Athena。
📊 餐厅老板看每天销量报表、厨师长监控备料量 — 数据要能查、要有监控。
AWS 侧:Athena 直接查 S3 里的数据;CloudWatch 看管道有没有堵;Step Functions 编排复杂流程不丢步。
🔐 只有主厨能进冷冻库,收银员不能看食谱配方 — 权限要分清,密码要锁好。
AWS 侧:IAM 管「谁能做什么」;KMS 管加密;Lake Formation 管数据湖里行级/列级细粒度授权;CloudTrail 留审计日志。
👆 这五步 = DEA-C01 的四个考域。第1~2步 = D1 摄取转换(34%);第3步 = D2 存储(26%);第4步 = D3 运维(22%);第5步 = D4 安全(18%)。