彭江涛, 杨洁, 谢启伟, 沈丽君, 周祺胤, 严卿
录用日期: 2025-09-12
视觉语言大模型通过自然语言交互能够解决端到端自动驾驶系统因黑盒特性带来的可解释性不足的问题,从而提升自动驾驶系统决策的透明度和可信度.一般的视觉语言大模型通过轻量级的“粘合”层对齐视觉和文本特征,但由于其结构简单且初始状态随机,往往难以捕捉两者之间的复杂关系.在处理视频问答任务时,一般的视觉语言大模型较少兼顾视频特征的细粒度提取和不同帧之间的时序建模.此外,现存方法参数规模普遍较大,难以实际部署.针对以上问题,文章提出了基于细粒度特征跳跃连接与时空注意力融合的轻量驾驶视频问答模型FSS-VLM,它能够有效对齐视频和文本特征,充分挖掘并利用细粒度的视频特征.时空注意力门控模块结合时空注意力和门控机制动态捕捉视频帧内细粒度信息,建模帧间时序依赖关系,并自适应融合多帧特征,增强视频的特征表示.对齐适配器和对齐损失模块通过对齐损失函数引导适配器学习跨模态特征间的映射关系,实现视觉与文本特征在语义空间中的对齐.细节信息跳跃连接模块引入残差连接变体和门控为大模型编码器特征注入细节信息,帮助大模型在解码过程中更好利用细节特征,以此防止网络过深导致的细节信息损失问题.实验结果表明视觉问答模型FSS-VLM有效,并在关键指标上表现较好.