对于多模态根基模子,咱们愿望其不光可能处置特定的多模态相关使命 ,还愿望其处置单模态使命时也具备优异的功能。阿⾥达摩院团队发现现有的模子每一每一不能很好的失调模态相助以及模态瓜葛的下场,这限度了模子在种种单模态以及跨模态卑劣使命的功能。
基于此,达摩院的钻研者提出了 mPLUG-2 ,其经由模块化的⽹络妄想妄想来失调多模态之间的相助以及瓜葛下场,mPLUG-2 在 30 + 多 / 单模态使命 ,取患上划一数据量以及模子规模 SOTA 概况 Comparable 下场,在 VideoQA 以及 VideoCaption 上逾越 Flamingo、VideoCoca、GITv2 等超⼤模子取患上相对于SOTA。此外,mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新使命,不断了 mPLUG 系列的模块化磨炼脑子,把 LLM 降级为⼀个多模态⼤模子 。mPLUG-2 的研品评辩说文已经被 ICML 2023 接管 。
论⽂地址 :https://arxiv.org/pdf/2302.00402.pdf
mPLUG-2 地址 :https://github.com/X-PLUG/mPLUG-2
mPLUG-Owl 地址:https://github.com/X-PLUG/mPLUG-Owl
钻研布景
⼤规模预磨炼根基模子是⼈⼯智能规模的新兴范式,波及语⾔ 、视觉以及多模态等多个规模。随着 Transformer 系统妄想的⼴泛乐成 ,近些年来已经泛起了语⾔ 、视觉以及多模态预磨炼的⼤融会趋向 。
该趋向下的⼀条主要路线是采⽤统⼀的序列⽣成框架来统⼀使命以及模态,如 T五 、OFA 以及 Flamingo 等。另⼀条主要路线则是将所有使命都视为实例分说 (instance discrimination),并接管纯编码器架构,如 BERT、Florence 以及 BEIT-3 模子 。
以上主流根基模子提出为多模态数据建模同享的单⼀收集 (single network),以此来运用模态相助的信息,如 Flamingo。可是 ,由于差距模态波及到的使命的巨⼤差距,这种策略将⾯临模态瓜葛的下场 ,多个模态可能会相互关扰,特意是当存在多种模态以及使命时。单模块根基模子难以失调模态相助的收益以及模态瓜葛对于多个跨模态卑劣使命的影响。
为了缓解这个挑战,在这项⼯作中,阿⾥达摩院团队引⼊了⼀种新的多模态根基模子的统⼀范式 ,如下图 1 所示。它采⽤基于模块的⽹络妄想来思考到模态相助以及模态瓜葛之间的失调。mPLUG-2 的钻研者妄想了特定的同享功能模块 (functional modules),以⿎励模态相助 ,同时保存特定于模态的模块 (modality-specific modules) 以处置模态瓜葛的下场。
基于模块化的妄想,差距的模块可能锐敏地选取以及组合,以顺应⼤量的单模态以及多模态的清晰以及⽣成使命 。反对于的卑劣使命的详细信息在表 1 中给出,可能看到 mPLUG-2 可能处置多种跨⽂本、图像以及视频的差距规范的卑劣使命。下表 2 中也提供了差距的卑劣使命所需要的模块组合。
措施概览
模子框图如上图 2 所示 :(1) mPLUG-2 妄想了⼀个统⼀的双 (dual) 视觉编码器模块,其中视频与图像输⼊同享的尺度 Transformer 模块,⽤于建模空间信息 。部份时域建模模块⽤于视频相关使命的时域关连建模。(2) mPLUG-2 妄想了⼀个别致的通⽤层模块 ( universal layers module),⽤于作为差距模态之间的关键 ,其经由同享⾃留意⼒模块将视觉以及语⾔模态投影到配合的以语⾔为导向的语义空间中。(3) mPLUG-2 使⽤格外的交织留意⼒模块将通⽤视觉展现 (universal vision representation) 与原始细粒度视觉展现融会。详细的模块妄想如图 2 所示 。最后,mPLUG-2 的差距模块经由使命以及模态指令 (task and modality instructions) 在单模态以及跨模态使命长进⾏散漫预磨炼。在推理历程中