视觉多模态:CLIP、ALIGN 与视觉语言对齐
1. 从早期跨模态学习到 CLIP:视觉和语言对齐是如何发展的
在 CLIP 出现之前,让计算机同时“看懂图像、理解文字”,其实已经是一个被研究了很多年的问题。只要稍微想一想就能明白:如果模型既能处理图像,又能处理语言,那它就有可能完成图文搜索、图片描述、视觉问答等各种任务,这听起来非常有吸引力。
也正因为如此,计算机视觉和自然语言处理领域的研究者,早早就开始尝试“跨模态学习”,也就是把图像和文本放在同一个模型里一起建模。然而,有些尴尬的是:这些方法虽然在论文里能跑出不错的结果,但很难真正变成一种稳定、通用、可以长期复用的基础能力。模型往往是“为某个任务量身定做的”,而不是“可以反复拿来用的工具”。