多模态大模型学杂了能力反下降?新研究:MoE+通用专家解决冲突_每日快讯(日常热点指南)

多模态大模型学杂了能力反下降?新研究:MoE+通用专家解决冲突


多模态大模型学杂了能力反下降?新研究:MoE+通用专家解决冲突

  2023-12-31 16:39:22     简体|繁體
http://news.qghjm.com/1029122.html

文章来源:量子位

图片来源:由无界 AI生成

微调,能让通用大模型更加适配具体的行业应用。

但现在,研究人员们却发现:

对多模态大模型做“多任务指令微调”,大模型可能会“学得多错得多”,因为不同任务之间的冲突,导致泛化能力下降。

多模态指令微调存在任务冲突

举个例子,多模态问答任务可能要求回复尽可能简洁准确,文档理解任务却会反过来要求大模型尽可能详细地做出描述。

不同下游任务指令微调数据分布差异较大,导致一个大模型难以在多个下游任务中均达到最优性能。

如何解决这个问题?

来自香港科技大学、南方科技大学和华为诺亚方舟实验室的联合研究团队,受MoE(混合专家模型)开源大模型Mixtral-8×7B的启发,提出利用稀疏专家模型,打造下游任务泛化性能更好、理解能力更强的多模态大模型。

具体细节,一起来看。


多模态指令微调存在任务冲突


为了验证多模态指令微调中不同类型任务数据对模型性能的影响,研究人员将数据进行如下划分:

  • VQA(视觉问答):VQAv2、OKVQA、A-OKVQA、OCRVQA,
  • Captioning(图像描述):COCO Caption、Web CapFilt、TextCaps,
  • Full(所有数据):VQA、Captioning、LLaVA-150k、VQG(视觉问题生成,基于VQA数据)。

基于以上数据,研究人员采用LoRA对InstructBLIP进行微调,获得3个专家模型,并在其他数据(Flickr30k-图像描述、GQA/SciQA/IconQA/TextVQA等不同类型视觉问答、HM/VSR等多模态分类或推理任务)上进行零样本测试和评估。

从上图(右)中可以看出,在指令微调中,并非采用全量数据会取得最好效果,相反,只有三个下游任务(GQA,VSR,TextVQA)在全量数据专家下表现最好。

这说明,对于大部分任务来说,在指令微调过程中引入其他任务的数据,反而会降低模型性能,多模态指令微调存在任务冲突

另一方面,实验中观察到,VQA和Captioning两个专家模型,在各自任务中取得了相较于全量专家更好的表现。这样的方法看似解决了任务冲突的问题,但存在以下局限:

  1. 不同训练任务的知识无法在任务专家之间共享;
  2. 训练的数据需要人为地划分,当训练数据种类较多时难以进行;
  3. 新任务来临时,需要人为判断使用哪一个任务专家。

为了解决以上局限,研究团队提出,可以利用稀疏专家模型(MoE),不同的专家处理不同的任务,并设计一种数据划分的方法,把相似的任务交给同一个专家处理。


基于指令聚类的稀疏专家多模态大模型


通过指令聚类划分数据

在大型视觉-语言模型(LVLM)中,该文定义指令为所有的文本输入,如上图(左)C1-C4的文本。

这些指令描述了任务的意图、要求。因此,作者使用Kmeans将所有的指令聚为64类。

如上图(右)所示,指令的聚类信息可以有效表示数据的任务类型。这样做省去了人力划分数据的成本

基于指令聚类信息进行混合LoRA专家路由

和前面的任务专家相似,模型在该层的输出同样由冻结的LLM线性层以及微调的LoRA产生。

不同的是,这里利用数据的指令聚类信息来对混合LoRA进行路由。具体而言,对于的模型的输入,可以按照如下方式计算它的路由信息:

其中,topk()(考虑k=1的情况)保持前k个最大项不变,并将其他的设置为0,C是可学习的类别的嵌入表征,C[xi]表示xi对应指令的聚类表征,Wgate是路由的线性参数。

通用专家提升模型泛化性

实验发现,上述的指令聚类LoRA专家的确缓解了任务冲突的问题,但由于一个专家可能只见过一部分任务,整个模型对下游任务的泛化性降低了。

因此,该研究团队提出用通用专家来从所有数据中学习指令泛化能力。

与MoE不同,除了通过top1选择的任务专家,该方法还固定地激活一个通用专家,使得这个专家从所有的指令数据中学习。

因此,模型在该层输出为LLM原始冻结参数W,任务专家We和通用专家Wu的加权和。

在这样的设计下,任务专家和通用专家的协同既提升了模型在和训练集相似任务的表现,又保障了模型对新任务的泛化能力。


实验效果


该论文遵循InstructBLIP的实验场景(数据使用、评估标准、训练细节),在13个训练数据集(包括VQA、Captioning、VQG等)上进行指令微调并在11个测试数据集上评估(训练数据集和测试数据集没有重叠)。

由上表所示,引入该文章提出的方法(MoCLE)后,InstructBLIP相较于基线模型在所有下游任务上都有提升,其中,在VSR,IconQA,TextVQA和MSVD-QA的提升尤为明显。

上图可视化了LLM某一层混合LoRA专家在不同数据下的路由结果,虚线上下方分别是训练和测试数据。(a)和(b)分别显示了使用指令聚类信息和指令token平均表征作为路由的结果。

可以看到,使用指令聚类信息路由时,数据在专家中出现了分化。例如专家0主要负责VQA相关任务,专家2主要负责Captioning相关任务,有效实现专家的差异化。另一方面,使用指令token平均表征作为条件时,不同任务对专家的激活是相似的,没有出现分化。

研究团队认为,稀疏专家多模态大模型+通用专家模块的组合,缓解了任务之间的冲突,还保证了稀疏模型对任务的泛化能力,使得多模态大模型能够更有效地适配不同的下游行业应用。

这是首个在多模态大模型指令微调中结合LoRA和稀疏专家模型(MoE)来缓解任务冲突并保持模型泛化能力的工作。
该工作证实了其应对复杂下游任务的有效性,并未多模态大模型的应用和发展开辟了新途径。

论文链接:
https://arxiv.org/abs/2312.12379



编辑:web3528btc 来源:加密钱包代币

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2022年 » « 01月 »
    12
    3456789
    10111213141516
    17181920212223
    24252627282930
    31

    最新资讯

    俄乌第二轮会谈前夕,飞出数只“黑天鹅”
  • 2025-06-04 16:20:02

     

    名医联诊促健康 北京专家黄世昌教授西安会诊圆满落幕
  • 2025-06-04 16:15:59

     

    昆明东大肛肠医院:用疗效赢得信赖
  • 2025-06-04 16:11:55

     

    潍坊汉生堂医院韩一民:承岐黄薪火 解肌肤“疑难杂症”
  • 2025-06-04 16:07:52

     

    致力高品质造车 长城汽车5月销售新车10.22万辆 同比增长11.78%
  • 2025-06-04 16:03:48

     

    张杰常州演唱会圆满收官,滴滴组建保障车队多举措保障歌迷便捷离场
  • 2025-06-04 15:59:44

     

    [代运营托管]骨病,痛风,失眠,血糖,血压,痔疮,胆结石的量,日供1000粉左右!
  • 2025-06-04 15:55:41

     

    杭银消金逾期后会起诉吗?起诉后果盘点
  • 2025-06-04 15:51:38

     

    [开户代运营]腾讯头条中医养生课中老年粉,注册65,年龄55+,源头价格,日供5000+
  • 2025-06-04 15:47:34

     

    [开户代运营]抖音问答减肥有量,闲鱼减肥有量。带价的,开单率也可以
  • 2025-06-04 15:43:30

     

    [开户代运营]抖音头条信贷,车抵量。对接api,按A合作。一手源头
  • 2025-06-04 15:39:27

     

    [开户代运营]抖音,视频号中老年养生器械量,百货量
  • 2025-06-04 15:35:23

     

    [开户代运营]支付宝,快手下载户
  • 2025-06-04 15:31:20

     

    [开户代运营][开户代运营]千川白牌公1.5 品牌公2.5,代理可查,稳定不割韭菜,下户充值秒到账
  • 2025-06-04 15:27:16

     

    电话销售团队
  • 2025-06-04 15:23:12