以下文章来源于深圳大学可视计算研究中心 ,作者丁婷婷
导读
本文是VCC丁婷婷同学对论文 Affection: Learning Affective Explanations for Real-world Visual Data 的解读,该工作由Snap公司、巴黎综合理工学院计算机科学实验室及斯坦福大学共同完成,已被计算机视觉顶级会议CVPR 2023接收。
项目主页:
https://affective-explanations.org/
该工作通过使用自然语言作为媒介解释给定视觉激励所激发的情感反应背后的基本原理,探索在真实世界图像引起的情感反应。为此创建了大型数据集,其中包含对85,007张图像的情感反应和不限形式的文本解释,由 6,283 名标注者标注,要求他们指出并解释怎样和为什么会产生特定感觉,总共收到526,749个反馈。这项工作迈出了情感理解的第一步,为更丰富、更以人为中心、更能感知情感的图像分析系统铺平了道路。
I
引言
人们常说计算机视觉系统旨在建立对视觉激励语义性、深层次、认知级的理解[1]。但是这种“理解”具体指什么?目前绝大多数图像分析系统仅仅关注图像内容,这些内容往往是对图像中陈列的物体或场景层面分析,并用语言来表述相关对象或活动之间的关系(例如,“一个人沿着海滩散步”)。过去几年,研究者们尽管在图像分析[2]和字幕生成[5]模型中取得前所未有的成功,但是严重忽略了图像与其潜在观察者之间存在的更微妙和复杂的相互作用。
本次导读论文的主要目标是研究图像带给人的情感体验。与基于内容的图像分析不同,本文以观察者为中心进行研究。本文假设情感是连接视觉世界和人类体验间的桥梁,并基于此建立真实世界中的视觉情感理解。此外,本文不仅关注不同观察者情感体验的差异,并深入挖掘其中原因。
II
技术贡献
本工作主要贡献如下:
构建一个大型数据集Affection[3],其中包含对真实世界图像的情感反应以及自然语言解释;
介绍了情感解释字幕(EAC)的任务,并开发Neural Speaker,基于真实世界图像的情感反应生成合理的文本解释。
图1 在未见过的测试图像上Neural Speaker生成的示例,文本的上和下部分分别为第一和第二种可能
III
方法介绍
Affection 数据集是建立在现有四个公开数据集(MS-COCO, Emotional-machines, Flickr30K entities, Visual genome和FI)之上,包含Emotional-machines和FI的全部图片和其他数据集的大部分图片。每张图片至少被6名标注者标注,标注信息包含:图像情感类别和不限形式的图像情感文本解释。
Neural Listeners 的两种模型
情感解释的Neural Listener是为了测试Affection数据集中文本解释多大程度可以识别图像潜在的描述与对抗随机分散,部署了两个Neural Listener模型:
(1)基于自对比标准LSTM和ResNet编码模型,对Affection中图像文本对进行联合两种模态的视觉/语言的空间嵌入训练。
(2)采用CLIP[4]预训练模型,直接测试Affection数据集与其他数据的表现比较其文本解释的性能[7,8]。
Neural Speaker 的三种模型
(1)基础模型:基础的Neural Speaker模型本文选择了结构简单,性能可靠,在实践中广泛使用的Show-Attend-and-Tell (SAT)[6]模型。
(2)基于情感Speaker模型:基于情感的变体网络模型,在训练过程中,每个时刻需向Speaker输入一个MLP编码的向量,该向量表示文本解释真值所证明的情感。在推理过程中,采用上面网络中最可能预测的情感来替换情感真值。
(3)语用学变体模型:为了进一步得到真实、细粒度的图像情感解释的生成,受到人类语用语言[4]的启发,提出了基于情感的语用学变体模型,能够优先考虑被认为具有歧义的解释实例,并由内部Listener单独训练。这种情况下,在Speaker中抽取文本解释实例重新排序并依据:
其中, 为Speaker是输入
和给定文本输出 关联度的概率, 为不含变体Speaker生成 的概率, 为超参数。
图2 通过CLIP提高Neural Speaker生成语用内容效果
IV
部分结果展示
基于情感和语用变体Neural Speaker生成结果,对情感视觉反应有强大的解释力,能够识别图像的细粒度视觉差异。图3可以看出相同物体由于情感极性的不同Speaker能够解释出
中细粒度的差异信息。
图3 基于情感和语用变体在未见过的图像中Neural Speaker生成实例
通过Neural Listener上数据集训练结果可以发现 Affection中解释文本包含了大量“客观”和可鉴别性的细节信息。具体来说,两组数据集的平均准确率都达了90%以上(COCO: 99.5% vs. Affection: 97.9%)。
图4 离散度的影响下在CLIP上Affection和COCO数据集标注内容理解准确率
V
总结与展望
本次导读论文提出了一个大型公开数据集,为图像情感的语言理解提供了大量真实数据,并帮助人工智能更全面地理解图像内容及其元素对人类情感的影响。本文基于图像文本对的CLIP模型多模态的研究方法证明了图像分析系统能够模仿和产生类人的情感反应。除此之外,还可以拓展一些有趣的新工作。例如,丰富的视觉激励反应的研究对于创建人工智能助手至关重要,人工智能助手可以实现与人类的无缝互动,建立用户联系。
VI
思考与讨论
Q: 在大模型时代下,有很多优质Vison-Language模型涌现,如CLIP。情感数据集(如:Affection)的存在还有必要吗?
A: 有必要。CLIP模型是基于4亿图像文本对训练的,是一个具有良好性能的通用大模型。然而,情感任务是复杂的、抽象的、细粒度的,需要针对性的学习。基于情感数据集对大模型进行微调,能够实现更深入的情感理解。
以下是开放性问题,欢迎读者朋友留言讨论:
Q: 在情感计算领域存在一个较有争议的话题:人类情感是个性大于共性,还是共性大于个性呢?考虑到个体在性格、身份、经历等方面的差异,一些研究者认为应该更多地关注个性化研究;也有不少研究者认为情感存在较多共性,在人类漫长的进化过程中,群体对于情感的反馈和体验是趋同的。关于这个问题,您是怎么考虑的?
转自:“arXiv每日学术速递”微信公众号
如有侵权,请联系本站删除!