多模态目标追踪是多模态任务中的一项关键技术,也是很多相关下游任务的“指挥棒”,目的是根据目标的指示信息(视频第一帧目标的标签)在视频流中持续追踪目标(逐帧输出追踪结果)。其中,目标的指示信息可以以一种或多种模态的形式提供,例如目标的语言描述、边界框图片、掩膜图片等等。追踪模型会拆解提示信息并抽象出目标的高层次特征,与视频帧中的背景区域或干扰物体进行比对,从而找到对应的目标并输出跟踪结果。追踪模型还需要时刻关注目标在视频中的变化,包括位置移动、动作变形等等,及时更新目标的特征,最终完成整个视频流的目标跟踪任务。
目前,多主流的多模态目标追踪模型的通用性却不高,主要表现为单个模型只能应对某个特定模态的指示信息,当要处理涉及不同模态信息的场景时,需要使用多个模型才能完成任务,且无法处理多种模态信息共存的情况。
本项科技成果着眼于多模态目标追踪的统一框架,该框架立足于两个层面的统一:其一为上层结构(输入输出)的统一,包括对不同模态输入(语言模态、图片模态)的统一建模方式,以及对不同精度追踪结果(位置点、边界框、掩模图)的统一输出方式;其二为内部模块的统一,包括对不同模态特征的统一优化方式,以及对不同模态信息重点区域的统一预测方式。
成果简介:
多模态目标追踪是多模态任务中的一项关键技术,也是很多相关下游任务的“指挥棒”,目的是根据目标的指示信息(视频第一帧目标的标签)在视频流中持续追踪目标(逐帧输出追踪结果)。其中,目标的指示信息可以以一种或多种模态的形式提供,例如目标的语言描述、边界框图片、掩膜图片等等。追踪模型会拆解提示信息并抽象出目标的高层次特征,与视频帧中的背景区域或干扰物体进行比对,从而找到对应的目标并输出跟踪结果。追踪模型还需要时刻关注目标在视频中的变化,包括位置移动、动作变形等等,及时更新目标的特征,最终完成整个视频流的目标跟踪任务。
目前,多主流的多模态目标追踪模型的通用性却不高,主要表现为单个模型只能应对某个特定模态的指示信息,当要处理涉及不同模态信息的场景时,需要使用多个模型才能完成任务,且无法处理多种模态信息共存的情况。
本项科技成果着眼于多模态目标追踪的统一框架,该框架立足于两个层面的统一:其一为上层结构(输入输出)的统一,包括对不同模态输入(语言模态、图片模态)的统一建模方式,以及对不同精度追踪结果(位置点、边界框、掩模图)的统一输出方式;其二为内部模块的统一,包括对不同模态特征的统一优化方式,以及对不同模态信息重点区域的统一预测方式。
创新要点:
❶ 设计了一种基于Transformer结构的多模态输入信息的统一建模方式;
❷ 引入了拓扑学中经典的持续同调性图和多/维单纯形结构,对不同模态特征提取出结构相似的上层信息,实现了不同模态特征的统一优化;
❸ 使用强化学习模型,将不同模态的初始区域进行逐步扩大,从而以统一的方式实现不同模态信息的重点区域的预测;
❹ 采用极坐标的形式,对不同精度的模型输出进行统一表示,从而使单一模型能够通过调整激活参数量的大小而动态调节模型的输出精度。
技术指标:
预期在三个主流的多模态目标追踪任务(基于语言的追踪、基于边界框的追踪、基于掩模图的追踪)上均达到最高的性能表现。
商品类型 | 技术成果 | 项目阶段 | 其他 | 成果权属 | 独占 |
技术领域 |
电子信息 计算机产品及其网络应用技术 智能交通和轨道交通技术
电子信息 计算机产品及其网络应用技术 智能交通和轨道交通技术 | 交易方式 | 合作开发 | 权属人 | |