多模态大模型学杂了能力反下降?新研究:MoE+通用专家解决冲突_每日快讯(日常热点指南)

多模态大模型学杂了能力反下降?新研究:MoE+通用专家解决冲突


多模态大模型学杂了能力反下降?新研究:MoE+通用专家解决冲突

  2023-12-31 16:39:22     简体|繁體
http://news.qghjm.com/1029122.html

文章来源:量子位

图片来源:由无界 AI生成

微调,能让通用大模型更加适配具体的行业应用。

但现在,研究人员们却发现:

对多模态大模型做“多任务指令微调”,大模型可能会“学得多错得多”,因为不同任务之间的冲突,导致泛化能力下降。

多模态指令微调存在任务冲突

举个例子,多模态问答任务可能要求回复尽可能简洁准确,文档理解任务却会反过来要求大模型尽可能详细地做出描述。

不同下游任务指令微调数据分布差异较大,导致一个大模型难以在多个下游任务中均达到最优性能。

如何解决这个问题?

来自香港科技大学、南方科技大学和华为诺亚方舟实验室的联合研究团队,受MoE(混合专家模型)开源大模型Mixtral-8×7B的启发,提出利用稀疏专家模型,打造下游任务泛化性能更好、理解能力更强的多模态大模型。

具体细节,一起来看。


多模态指令微调存在任务冲突


为了验证多模态指令微调中不同类型任务数据对模型性能的影响,研究人员将数据进行如下划分:

  • VQA(视觉问答):VQAv2、OKVQA、A-OKVQA、OCRVQA,
  • Captioning(图像描述):COCO Caption、Web CapFilt、TextCaps,
  • Full(所有数据):VQA、Captioning、LLaVA-150k、VQG(视觉问题生成,基于VQA数据)。

基于以上数据,研究人员采用LoRA对InstructBLIP进行微调,获得3个专家模型,并在其他数据(Flickr30k-图像描述、GQA/SciQA/IconQA/TextVQA等不同类型视觉问答、HM/VSR等多模态分类或推理任务)上进行零样本测试和评估。

从上图(右)中可以看出,在指令微调中,并非采用全量数据会取得最好效果,相反,只有三个下游任务(GQA,VSR,TextVQA)在全量数据专家下表现最好。

这说明,对于大部分任务来说,在指令微调过程中引入其他任务的数据,反而会降低模型性能,多模态指令微调存在任务冲突

另一方面,实验中观察到,VQA和Captioning两个专家模型,在各自任务中取得了相较于全量专家更好的表现。这样的方法看似解决了任务冲突的问题,但存在以下局限:

  1. 不同训练任务的知识无法在任务专家之间共享;
  2. 训练的数据需要人为地划分,当训练数据种类较多时难以进行;
  3. 新任务来临时,需要人为判断使用哪一个任务专家。

为了解决以上局限,研究团队提出,可以利用稀疏专家模型(MoE),不同的专家处理不同的任务,并设计一种数据划分的方法,把相似的任务交给同一个专家处理。


基于指令聚类的稀疏专家多模态大模型


通过指令聚类划分数据

在大型视觉-语言模型(LVLM)中,该文定义指令为所有的文本输入,如上图(左)C1-C4的文本。

这些指令描述了任务的意图、要求。因此,作者使用Kmeans将所有的指令聚为64类。

如上图(右)所示,指令的聚类信息可以有效表示数据的任务类型。这样做省去了人力划分数据的成本

基于指令聚类信息进行混合LoRA专家路由

和前面的任务专家相似,模型在该层的输出同样由冻结的LLM线性层以及微调的LoRA产生。

不同的是,这里利用数据的指令聚类信息来对混合LoRA进行路由。具体而言,对于的模型的输入,可以按照如下方式计算它的路由信息:

其中,topk()(考虑k=1的情况)保持前k个最大项不变,并将其他的设置为0,C是可学习的类别的嵌入表征,C[xi]表示xi对应指令的聚类表征,Wgate是路由的线性参数。

通用专家提升模型泛化性

实验发现,上述的指令聚类LoRA专家的确缓解了任务冲突的问题,但由于一个专家可能只见过一部分任务,整个模型对下游任务的泛化性降低了。

因此,该研究团队提出用通用专家来从所有数据中学习指令泛化能力。

与MoE不同,除了通过top1选择的任务专家,该方法还固定地激活一个通用专家,使得这个专家从所有的指令数据中学习。

因此,模型在该层输出为LLM原始冻结参数W,任务专家We和通用专家Wu的加权和。

在这样的设计下,任务专家和通用专家的协同既提升了模型在和训练集相似任务的表现,又保障了模型对新任务的泛化能力。


实验效果


该论文遵循InstructBLIP的实验场景(数据使用、评估标准、训练细节),在13个训练数据集(包括VQA、Captioning、VQG等)上进行指令微调并在11个测试数据集上评估(训练数据集和测试数据集没有重叠)。

由上表所示,引入该文章提出的方法(MoCLE)后,InstructBLIP相较于基线模型在所有下游任务上都有提升,其中,在VSR,IconQA,TextVQA和MSVD-QA的提升尤为明显。

上图可视化了LLM某一层混合LoRA专家在不同数据下的路由结果,虚线上下方分别是训练和测试数据。(a)和(b)分别显示了使用指令聚类信息和指令token平均表征作为路由的结果。

可以看到,使用指令聚类信息路由时,数据在专家中出现了分化。例如专家0主要负责VQA相关任务,专家2主要负责Captioning相关任务,有效实现专家的差异化。另一方面,使用指令token平均表征作为条件时,不同任务对专家的激活是相似的,没有出现分化。

研究团队认为,稀疏专家多模态大模型+通用专家模块的组合,缓解了任务之间的冲突,还保证了稀疏模型对任务的泛化能力,使得多模态大模型能够更有效地适配不同的下游行业应用。

这是首个在多模态大模型指令微调中结合LoRA和稀疏专家模型(MoE)来缓解任务冲突并保持模型泛化能力的工作。
该工作证实了其应对复杂下游任务的有效性,并未多模态大模型的应用和发展开辟了新途径。

论文链接:
https://arxiv.org/abs/2312.12379



编辑:web3528btc 来源:加密钱包代币

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2018年 » « 01月 »
    1234567
    891011121314
    15161718192021
    22232425262728
    293031

    最新资讯

    [开户代运营]【百度(baidu)】一手端口,教育、个律、旅游以及常规9+4等多行业收量,端口量大且稳定
  • 2025-06-04 23:10:03

     

    [开户代运营]小红书 千川 本地推高返点开户
  • 2025-06-04 23:05:59

     

    金条白条逾期多久会打联系人电话?还不上怎么办?
  • 2025-06-04 23:01:56

     

    斗银今准芬
  • 2025-06-04 22:57:52

     

    提供百度和360搜索推广服务,寻股票、期货证券公司合作。
  • 2025-06-04 22:53:49

     

    世界“第八大陆”,太平洋垃圾带,那么多垃圾究竟哪里来的?
  • 2025-06-04 22:49:45

     

    汪峰再迎第六个孩子,恋情如复印机般重复,网友直呼真是牛气冲
  • 2025-06-04 22:45:42

     

    老公坐在车内,妻子却站在窗前五分钟,静静地看着老公删除聊天记录
  • 2025-06-04 22:41:38

     

    临沂公安全力护航万人演唱会,奏响安保“最强音”
  • 2025-06-04 22:37:34

     

    1500万人沿河而居,为何至今仍没有一座桥敢跨越亚马逊河?
  • 2025-06-04 22:33:31

     

    王菲谢霆锋日本甜蜜同游,二十载情缘细水长流,姐妹情深更暖心
  • 2025-06-04 22:29:27

     

    无滤镜后,马景涛苍老,吴京邋遢,邓超发福,华晨宇是油而不自知
  • 2025-06-04 22:25:24

     

    世界“第八大陆”,太平洋垃圾带,那么多垃圾究竟哪里来的?
  • 2025-06-04 22:21:20

     

    赵丽颖新剧竟大扑街?视后光环不再?
  • 2025-06-04 22:17:17

     

    临沂公安全力护航万人演唱会,奏响安保“最强音”
  • 2025-06-04 22:13:13