过去几年,计算机视觉 (CV) 领域的工程师们习惯了线性增长的叙事:数据量翻倍,准确率提升几个百分点;模型参数量增加,推理速度稍微慢一点。这种可预测的工程节奏让人安心,直到 Scaling Law (缩放定律) 开始在视觉任务中显现出非线性的威力。
我们原本以为,只要把 ResNet 或 ViT 堆得足够大,就能解决所有识别问题。但现实给了更复杂的反馈。当模型规模突破某个临界点,它不再只是更准确地分辨猫和狗,而是开始理解场景中的因果关系。比如,看到湿漉漉的地面和雨伞,模型能推断出“刚下过雨”,而不仅仅是识别出“雨伞”这个物体。
这种能力的跳跃,就是所谓的智能涌现。它不是通过微调某个超参数得来的,而是规模积累后的自然结果。
很多人误以为 Scaling Law 意味着无脑堆数据。在 CV 领域,这恰恰是最大的陷阱。早期的 ImageNet 时代,我们追求的是标注数据的绝对数量。但在大模型时代,噪声数据的负面影响被指数级放大。
如果一个模型在十亿张低质量、标签错误的图片上训练,它学到的不是视觉规律,而是统计偏差。最近的研究显示,经过严格清洗的小规模数据集,往往能让模型在零样本测试中表现优于未经清洗的大规模数据集。
盲目扩大数据规模而不提升数据纯度,只会加速模型的退化,而非进化。

这意味着,团队的核心竞争力正在从“如何获取更多数据”转向“如何定义高质量数据”。这需要领域专家介入,重新审视标注标准,甚至引入合成数据来填补长尾场景的空白。
智能涌现看起来像是一种意外惊喜,仿佛模型突然“开窍”了。但从工程角度看,它更像是复杂系统达到一定复杂度后的必然相变。就像水加热到 100 度必然沸腾一样,当计算力、数据量和算法架构同时达到某个阈值,高阶认知能力就会浮现。
但这并不意味着我们可以坐享其成。涌现的能力往往是不可控的。模型可能学会了精细的物体分割,却同时在对抗样本面前变得极其脆弱。它在常规场景下表现完美,却在极端光照或遮挡条件下产生荒谬的判断。
对于从业者而言,承认涌现的必然性,是为了更好地管理它的副作用。我们需要建立新的评估体系,不再只盯着 mAP 或 Accuracy,而是关注模型的鲁棒性、可解释性以及泛化边界。
Scaling Law 没有给出终点,它只是改变了游戏规则。以前的 CV 是在做加法,现在是在做乘法。乘数效应带来红利的同时,也放大了每一个细微的错误。这才是我们需要直面的真实挑战。
