当前位置:科学 > 正文

Teach CLIP to Count: 如何提高CLIP模型的计数能力?

2023-08-09 08:13:31  来源:烟火与浮云

#论文阅读# 原文「链接」

Count 计数



【资料图】

背景

基于对比学习的视觉语言预训练模型CLIP可以学习到丰富的视觉-文本表示,促进了很多下游任务的发展和进步,例如零样本分类、文生图等。

然而,它却有一些十分可证实的突出局限性——计数能力欠缺。在保证不影响通用能力的前提下,如何提高视觉-语言模型的定量理解能力,是本文的主要讨论内容。

Counting-aware CLIP


为什么CLIP在计数任务上表现差?

作者指出了两个导致CLIP在计数能力上欠缺的主要原因:

1)训练数据captions中,一方面,对于物体数量做精确描述的样本比较少,特别是当数量多的时候,比如6个以上时,会用一些模糊和宽泛的描述词(a group of , many, ...);另一方面,还存在许多在计数任务上错误描述的样本。

离线检测模型自动筛选出的错误训练样本

2) 即使存在一些精确数量描述的captions样本,计数任务在训练VLM的过程中(loss计算)贡献较少,这是因为 “数量”跟“物体类别”等名词性短语相比,所包含的信息量更少,对于text,image 能否正确匹配起到的作用更小。

L = Lclip + λLcount


怎样提高CLIP的Count计数能力?

为此,作者针对性的提出了两个优化方案:

1)制作包含准确数量描述的训练数据captions. 具体的,数据制作使用了一个离线的目标检测网络,用来得到图片中的物体种类和对应的数量。

2)设计了一个训练目标(损失函数Lcount),提高计数任务重要性,使数量不匹配的caption 和图片之间的距离更远, 数量匹配的catpion和相应图片的距离更近。

损失函数Lcount只在Counting Subset中计算,其他不包含数量描述的训练数据只计算一般的Lclip。

有咩有想到人脸识别?


效果展示

经过优化的CLIP模型,图文匹配关于数量的相关性显著提升。并且,模型更加关注图片中与计数有关的区域。

图文对的相关性热图

此外,作者提出了一个叫CountBench的评测集,下图是该评测集的一些样例图片和对应的文本描述。它是从开源数据集LAION-400M 中挑选,并由模型自动生成标签,再经人工校对后所得到的。

CountBench

Open Question

多模态视觉语言模型(MLLM)一般使用冻结的视觉编码器(CLIP VIT L/14), 同样出现上文所述的计数能力弱的问题,如果使用本文所述方法对CLIP做微调后再冻结作为视觉编码器,是否可以改善MLLM在计数问答任务上的表现呢?

老大任务已经布置了,且等一试。

各路大佬如果还有其他想法,也请在评论区留言,欢迎讨论~

关键词:

推荐阅读

月壤形成的主要原因 月壤与土壤有什么区别

月壤形成的主要原因月壤形成过程没有生物活动参与,没有有机质,还极度缺水干燥;组成月壤的矿物粉末基本是由陨石撞击破砰形成,因此,粉末 【详细】

域名抢注是是什么意思?投资角度来看什么域名好?

域名抢注是是什么意思域名抢注是通过抢先注册的方式获得互联网删除的域名的使用权。域名是由点分隔的一串数字,用于标记一台计算机或一组计 【详细】

捷达保养费用是多少?捷达是哪个国家的品牌?

捷达保养费用是多少?全新捷达的保修期为2年或6万公里,以先到者为准,新车可享受一次免费保养,首次免费保养在5000-7500km或1年内进行。如 【详细】

天然气泄露会造成爆炸吗?天然气泄漏怎么办?

天然气泄露会造成爆炸吗?家里用的天然气如果泄露是会发生爆炸的。当空气中含有混合天然气时,在与火源接触的一系列爆炸危险中,就会发生爆 【详细】

四部门明确App收集个人信息范围 个人信息保护范围判断标准

四部门明确App收集个人信息范围近日,国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合印发《常见类型移动互联网 【详细】

关于我们  |  联系方式  |  免责条款  |  招聘信息  |  广告服务  |  帮助中心

联系我们:85 572 98@qq.com备案号:粤ICP备18023326号-40

科技资讯网 版权所有