AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:
[email protected];
[email protected]在多模态年夜言语模子(MLLMs)的开展中,视觉 - 言语衔接器作为将视觉特点映射到 LLM 言语空间的要害组件,起到了桥梁感化。因而,它多少乎成为了全部多模态年夜言语模子中弗成或缺的构造之一。但是,怎样高效地将视觉特点映射到 LLM 的摸索另有很年夜晋升空间。字节团队与中年夜配合提出的 ParGo 模子,经由过程奇妙地融会全局视线跟部分细节,在多项威望基准测试(Benchmark)中表示杰出,胜利当选了 AAAI 2025。论文地点:https://arxiv.org/abs/2408.12928代码地点: https://github.com/bytedance/ParGo从前,年夜少数研讨重要依附线性投影或多层感知机(MLP)将视觉特点直接映射,这种方式难以无效把持输入 LLMs 的视觉 token 数目,特殊是在处置细粒度特点时,招致盘算本钱极高。另一类基于留神力机制的方式(如 Q-former)经由过程留神力操纵将图像特点投射为牢固数目的视觉 token,固然年夜幅增加了盘算本钱,但每每使得天生的 token 会合在图像的明显地区,疏忽了细节局部。为懂得决这一成绩,ParGo 提出了一种翻新的全局 - 部分投影器来衔接视觉与文本,经由过程联合全局视线跟部分细节的双器重角,战胜了传统方式对明显地区的适度聚焦,使得视觉特点可能在更精致的层面上失掉片面展示,同时有能无效把持过长的 token 带来的盘算本钱的降低,进而实现了视觉特点跟 LLM 的高效衔接。方式ParGo (Partial-Global) 采取两品种型的可进修 token, 应用 attention 机制,同时从部分跟全局视角将视觉特点映射到年夜言语模子(LLM)中。该框架包括两个要害模块:Partial-Global Perception Block (PGP) 跟 Cascaded Partial Perception Block (CPP)。这两个模块独特感化,实现了高效的视觉 - 言语衔接,既捕获了图像的全局信息,又能精致地提取部分特点,从而晋升了多模态年夜言语模子的后果。中心模块Partial-Global Perception Block (PGP)在 ParGo 中,视觉编码器的特点被映射为两种差别范例的 token:Partial token 跟 Global token,从而可能分辨提取图像的部分跟全局信息。详细来说:Partial tokens:每个 token 仅与局部视觉特点停止交互,专一于图像的部分信息Global tokens:全局 token 则与全部视觉特点停止交互,捕获图像的全局信息ParGo 采取了一种新的穿插留神力掩码计划(Partial-Global Attention Mask),如图 1 (b) 所示,来处置输入的视觉特点。该计划可能同时输出包括图像部分跟全局信息的特点,即 Partial tokens 跟 Global tokens。详细的公式如下:Cascaded Partial Perception Block (CPP)别的,斟酌到差别部分物体在图像中的占比差别,为了进一步加强对多种部分信息的完全捕捉才能,ParGo 在 Partial-Global Perception 模块之前引入了 Cascaded Partial Perception (CPP) 模块。CPP 模块 的中心是一个带有特别计划掩码的自留神力机制,如图 1 (b) 中的 Cascaded Partial Attention Mask。跟着层数的增添,每个 Partial token 可能拜访到更多的相邻 token,从而逐渐扩大其感知范畴。该进程能够经由过程以下公式表现:试验后果论文重点对照了以后差别范例的 Projector(投射器),在一些通用的 MLLM 的 benchmark 的后果,均获得了优良的后果。为了进一步停止公正对照,论文在雷同数据集跟试验参数下,比拟了三种主流的投影器(Projector)。成果表现,ParGo 仍然获得了最佳的机能表示。别的,在差别基座 LLM 下,ParGo 均表示精良,表现出了更好的泛化机能。案例剖析为了能进一步展示 ParGo 在把持 token 数目的情形下,仍然能做到细粒度跟空间关联的正确捕捉,作者对照了 ParGo 跟 Q-former 这两种均是基于留神力机制的 Projector(投射器)在雷同 tokens 下的后果:部分元素辨认后果更好论断本研讨提出了 ParGo(部分 - 全局投影器),一种翻新的视觉 - 言语投影计划,旨在晋升多模态年夜言语模子(MLLMs)中视觉跟言语模态的对齐后果。ParGo 经由过程联合部分 token 跟全局 token,并应用经心计划的留神力掩码分辨提取部分跟全局信息,在把持 token 数目的同时加强下场部地区之间的关联建模,充足斟酌了图像的细节与全局视角,从而战胜了传统方式中疏忽细节的成绩。