过去做用户画像,像贴便利贴。性别、年龄、地域,几个大词往人身上一糊,就算完事。运营推活动,对着“25-30岁女性”群发优惠券,转化率低得让人头疼。不是标签错了,是太粗了。同一个年龄段,有人刚生娃买奶粉,有人还在熬夜打游戏,需求天差地别。
预训练模型带来的最大改变,是不再只盯着静态属性,而是开始理解行为背后的意图。
传统标签体系依赖规则统计。用户搜了“跑鞋”,就打上“运动爱好者”标签。但如果他接着搜了“膝盖护具”和“康复训练”,之前的标签就偏了。他可能不是爱好者,是个受伤初愈的恢复者。
预训练模型能读懂这种上下文。它处理过海量文本,知道“康复”和“激进运动”之间的语义距离。当它分析用户行为序列时,看到的不是孤立的关键词,而是一条有逻辑的故事线。它推断出用户此刻的核心诉求不是“买最贵的鞋”,而是“安全、缓震、保护关节”。
以前客服聊天记录、商品评论、社区发帖,这些非结构化数据很难进画像系统。存着占空间,用起来没头绪。
现在不一样了。把一段长达五百字的差评丢给模型,它能迅速提炼出情绪倾向和具体痛点。比如用户抱怨“物流慢”,传统系统只记录“物流负面”。模型能进一步识别:用户愤怒的不是慢,而是“承诺次日达却延误”,且语气中透露出“急需送礼”的焦虑。

这个“急需送礼”的场景标签,比单纯的“高净值用户”值钱得多。它在特定时间节点,直接指向高转化机会。
技术再好,落地也得踩坑。很多团队一上来就想全量重构,结果算力成本飙升,实时性却跟不上。
建议从小场景切入。先选一个高价值但低转化的细分群体,用预训练模型重新清洗他们的行为数据。对比新旧画像在推荐系统中的表现。通常两周内就能看到CTR(点击通过率)的变化。
隐私合规是绕不开的墙。模型推理需要在本地或可信环境中进行,避免原始数据明文传输。联邦学习是个方向,但工程复杂度高。现阶段,更务实的做法是对输出结果做脱敏处理,只保留洞察结论,不保留原始文本痕迹。
用户画像不该是一个静止的数据库表格。它应该像流水,随着用户的每一次点击、每一句吐槽而动态变形。预训练模型只是工具,核心还是我们愿不愿意放下对“标准答案”的执念,去看见一个个具体、复杂且多变的人。
