数据湖不只是存数据：如何让它真正跑通大数据业务-时光笔记

很多公司建完数据湖后的第一反应是：松口气，终于有个地方能倒垃圾了。

日志、埋点、数据库备份，一股脑往里扔。存储成本确实比传统数仓低，扩容也方便。但半年后，业务方来问数，数据团队却答不上来。为什么？因为湖成了沼泽。东西都在，就是没法用。

大数据的核心矛盾，从来不是存不下，而是找不到、读不懂、不敢用。

我见过一个电商项目，用户行为日志在湖里躺了两年。格式五花八门，有的字段缺失，有的时间戳混乱。当运营想分析“双十一”复购率时，数据工程师花了三周清洗数据，最后发现关键的用户ID关联字段在三个月前的一次采集变更中丢了。

这种场景太常见。只存不治理，数据湖就是个昂贵的黑洞。它吞噬资源，却不产出价值。真正的痛点在于，原始数据缺乏上下文。没有元数据管理，没有血缘追踪，没有人知道这张表里的 status=1 到底代表“已支付”还是“已发货”。

要让湖跑通业务，得从“仓库管理员”思维转向“超市货架”思维。

首先是 schema on read 的克制使用。虽然写的时候灵活，但读的时候必须规范。建议在接入层就建立基础的标准字典。比如，所有涉及金额的字段，统一单位、统一精度。别指望下游分析师每次都要写一遍转换逻辑。

其次是元数据自动化。靠人工登记表结构？别做梦了。必须通过工具自动抓取表的更新频率、热门查询字段、数据所有者。当业务人员搜索“用户画像”时，他们应该能看到哪张表最近被引用最多，而不是面对几十个同名不同内容的表格发呆。

最关键的一点：建立数据SLA（服务等级协议）。不是所有数据都值得实时处理，明确哪些数据必须T+0，哪些可以T+1，能节省大量计算资源。

技术架构再漂亮，如果业务方不用，就是失败。

我曾参与重构一个零售客户的大数据平台。我们没有急着迁移所有历史数据，而是先挑了一个高频场景：库存预警。只打通供应链和销售两端的数据，在湖里建立一个小而精的集市。

结果呢？两周上线，库存周转率提升了5%。业务方看到了甜头，主动配合后续的数据治理。这才是正循环。

不要试图一次性把整个湖清理干净。找个具体的业务痛点，用小数据集跑通全流程。让数据在湖里流动起来，产生决策，而不是静止地占据硬盘空间。

当你的数据湖开始被频繁查询，而不是频繁扩容时，它才算真正跑通了。

声明：未经同意禁止任何个人或组织复制、盗用、采集、发布本站点内容到其他媒体平台。

数据湖不只是存数据：如何让它真正跑通大数据业务