现在的 RAG (检索增强生成) 系统大多还停留在“读文字”的阶段。你把 PDF 丢进去,它提取文本,建索引,然后回答你的问题。这套流程处理合同、报告很顺手,但一旦遇到图表、流程图或者产品实拍图,它就瞎了。
纯文本检索最大的痛点在于“语义丢失”。一张复杂的架构图,转换成文字可能只剩下一堆杂乱无章的节点名称。大模型拿着这些碎片化的词,很难还原出原本的结构关系。这时候,引入视觉特征就成了破局的关键。
卷积神经网络 (CNN) 在这里扮演的角色,不是去识别猫狗,而是提取图像的深层结构特征。传统的 OCR 只能告诉你图里有什么字,CNN 却能告诉系统这张图的布局、颜色分布、线条走向以及物体间的空间关系。
举个例子。在电商场景中,用户搜“适合搭配蓝色牛仔裤的白色休闲鞋”。如果只靠文本标签,系统可能会返回所有标有“白色”、“休闲”的商品。但如果引入了 CNN 提取的视觉向量,系统能理解鞋子的版型、材质质感甚至鞋底厚度。这种多模态的向量表示,比单纯的关键词匹配要立体得多。
要实现这一点,通常采用双塔架构。一边是处理文本的 Transformer 模型,另一边是处理图像的 CNN 骨干网络(如 ResNet 或 EfficientNet)。两者分别将文本和图片映射到同一个高维向量空间中。
当用户发起查询时,系统不再只是计算文本相似度,而是同时计算查询文本与候选图片视觉特征的余弦相似度。这意味着,即使用户的描述里没有提到具体的品牌或型号,只要视觉风格接近,系统也能把相关结果捞出来。

关键在于:视觉特征向量必须经过充分的微调,确保它与文本向量在语义空间中对齐,否则会出现“图是图,文是文”的两张皮现象。
别以为加了 CNN 就万事大吉。计算成本是第一道坎。图像向量的维度通常远高于文本向量,检索速度会显著下降。工程上常用的解法是先用文本进行粗排,缩小候选集范围,再用视觉特征进行精排。
另一个问题是噪声。很多网页截图包含大量无关的 UI 元素、广告横幅。直接把这些扔进 CNN,提取出的特征全是噪音。预处理环节必不可少,你需要先裁剪出核心内容区域,或者使用目标检测模型剔除无关背景。
目前主流的向量数据库已经开始支持多模态索引。你不需要从头造轮子,重点应该放在数据清洗和特征融合策略上。毕竟,RAG 的核心竞争力从来不是用了什么炫酷模型,而是能不能在给定的算力预算下,把最相关的信息准确地推到模型面前。
视觉特征的加入,并没有改变 RAG 的本质,只是让“检索”这一步变得更厚实。它弥补了纯文本在描述物理世界时的苍白。对于需要处理大量非结构化文档的企业来说,这不再是锦上添花,而是迟早要补的一课。
