缓解模型关系幻觉(披露式的信息让模型深化理解)
论文文章
CHAINMPQ: INTERLEAVED TEXT-IMAGE REASON ING CHAINS FOR MITIGATING RELATION HALLUCI NATIONS
一句话解释
从一段对话中,一点一点确认信息(先确认主体是什么,然后确认客体是什么,然后主体联系关系看能不能找到客体,然后客体联系关系看能不能找到主体,最后主体联系客体确定他们之间的关系)
流程
bias3~5:视觉注意力偏置
A1~A5:每次问题的文本答案
Text-guided Attention Enhancement:文本进入编码器成为一个嵌入向量\图片进入编码器成为一个嵌入向量,通过cross attention增强对图片中的主体客体的注意力
Construction of Multi perspective Aware Text Prompt:怎么从句子中拆主体-客体-关系\创建问题
Interleaved Text-image Reasoning ChainInterleaved Text-image Reasoning Chain:这是完整的流程了(标蓝色的东西是需要填入主体-客体-关系的变量位置),以图中例子,先问主体"dog"在哪-文本回答,第二部问飞盘在哪-文本回答,第三部问主体联系关系是什么-文本回答加视觉注意力偏见,第四部问客体联系关系是什么-文本回答加视觉注意力偏见,第五部问主体客体关系是什么-文本回答加视觉注意力偏见,最后回答这个问题用上上面的文本和视觉记忆。
