输入“一位成功的CEO”,生成的图片里大概率是一位穿西装的白人男性。输入“护士”,得到的往往是年轻女性。这不是巧合,而是数据留下的指纹。
文生图 (Text-to-Image) 技术看似在创造新世界,实则是在镜像旧世界。它并不真正理解“成功”或“关怀”的含义,它只是统计概率:在互联网海量的图文数据中,哪些像素组合最常与这些词汇同时出现。
当我们要求 AI 画一个“医生”时,它很少主动画出女性或非裔形象,除非我们在提示词里刻意加上性别或种族限定。这种默认设置暴露了训练数据中的结构性失衡。
早期的图像数据集大多抓取自公开网络。而这些网络内容本身就被历史偏见所包裹。摄影记者更倾向于拍摄男性领导者, stock photo(图库照片)里的女性常被赋予辅助性角色。算法吃下了这些数据,消化后吐出的结果,自然带着同样的偏见。
这不仅仅是美观问题。当这种视觉呈现被大规模应用在游戏、广告甚至新闻插图中时,它在潜移默化中强化了某种单一的社会叙事。孩子看到的绘本插图、职场新人看到的宣传海报,都在重复同一个逻辑:某些群体天生属于中心,而另一些群体只能处于边缘。
不同于人类显性的偏见,算法歧视 往往披着客观的外衣。用户很难察觉背后的逻辑链条,因为模型不会告诉你它为什么这样选择。它只是给出一个看起来“合理”的结果。

更棘手的是,这种偏见具有自我强化的特性。随着 AI 生成内容充斥互联网,新的训练数据又开始包含大量 AI 生成的图像。如果初始偏差未被纠正,未来的模型可能会在错误的道路上越走越远,形成“回音室效应”。
有些开发者尝试通过“去偏”技术来修正这一问题,比如强制平衡数据集中的种族和性别比例。但这往往带来新的问题:生成的图像可能变得过于政治正确,甚至出现逻辑扭曲,比如给所有职业都强行分配相同的性别比例,忽略了现实行业的真实分布。
作为使用者,我们需要保持警惕。不要盲目信任 AI 输出的第一版结果。在商业项目中,人工审核环节不可省略。特别是涉及人物形象时,要主动检查是否存在单一的审美或身份预设。
技术本身没有道德判断,但使用技术的人有。我们无法指望算法一夜之间变得完美无缺,但至少可以在按下“生成”键之前,多想一步。
毕竟,画面里的世界,应该比统计数据更宽广。
