很多企业把大模型接进业务,第一反应是调 API。跑通一个 Demo 很快,但真要上线,发现效果忽好忽坏。问题不在模型本身,而在“喂”给模型的东西不对。
我们常听到 MaaS (模型即服务) 这个概念,听起来高大上,落地时却容易变成“模型即黑盒”。如果后端的数据是一潭死水,或者前端进来的用户意图杂乱无章,再强的模型也只能输出正确的废话。
大多数公司都有数据湖,存了日志、订单、用户行为。但这些数据往往是静态的、孤立的。模型需要的是上下文,而不仅仅是历史记录。
真正的痛点在于:当用户问“我上个月买的那双鞋怎么退换”时,模型能不能立刻从海量非结构化数据里,捞出那笔订单、对应的物流状态以及最新的退换货政策?如果做不到,MaaS 就只是个聊天机器人,不是业务助手。
数据湖的价值不在于“存”,而在于被模型实时检索和理解的能力。
静态数据解决不了动态问题。你需要一条畅通的信息流。
想象一个客服场景。用户的话语进入系统,这不仅是文本,更是一个触发信号。系统需要实时捕捉:
这些信息必须像血液一样,在毫秒级内流经预处理模块,清洗、向量化,然后送给模型。如果信息流堵塞,或者断档,模型就会“幻觉”频出,因为它在盲猜。

很多团队忽视了这一点,只顾着优化 Prompt,却不管数据链路。结果就是,Prompt 写得再花哨,模型拿到的输入依然是残缺的。
打通这两者,没有银弹,全是细节。
首先,得给数据湖加一层“语义索引”。传统的 SQL 查询对大模型不够友好,你需要把非结构化文档切片,建立向量索引。这一步很枯燥,但决定了检索的准确率。
其次,设计信息流的中间件。不要直接把原始日志丢给模型。写一个简单的过滤层,剔除噪音,提取关键实体。比如,从一段冗长的投诉电话录音里,只提取“订单号”和“核心诉求”。
最后,闭环反馈。模型输出的结果,用户是否满意?这个信号要回流到数据湖,成为下一次训练的素材。MaaS 不是一次性交付,而是一个不断自我修正的系统。
别指望供应商能帮你搞定这一切。模型是通用的,但你的业务逻辑和数据脉络是独有的。只有亲手理顺了信息流与数据湖的接口,MaaS 才算真正长在你的业务肌体上,而不是贴在外面的创可贴。
