参数小,性能强!开源多模态模型—TinyGPT-V_每日快讯(专注热点分享网)

参数小,性能强!开源多模态模型—TinyGPT-V


参数小,性能强!开源多模态模型—TinyGPT-V

  2024-01-20 13:13:41     简体|繁體
http://news.qghjm.com/1038800.html


原文来源:AIGC开放社区

图片来源:由无界 AI生成

安徽工程大学、南洋理工大学和理海大学的研究人员开源了多模态大模型——TinyGPT-V。

TinyGPT-V以微软开源的Phi-2作为基础大语言模型,同时使用了视觉模型EVA实现多模态能力。尽管TinyGPT-V只有28亿参数,但其性能可以媲美上百亿参数的模型

此外,TinyGPT-V训练只需要24G GPU就能完成,不需要A100、H100那些高端显卡来训练。

所以,非常适用于中小型企业和个人开发者,同时可以部署在手机、笔记本等移动设备上。

开源地址:https://github.com/DLYuanGod/TinyGPT-V

论文地址:https://arxiv.org/abs/2312.16862


TinyGPT-V主要架构


TinyGPT-V主要由大语言模型Phi-2、视觉编码器和线性投影层三大块组成。

开发人员选择了微软最新开源的Phi-2,作为TinyGPT-V的基础大语言模型。Phi-2只有27亿参数,但理解和推理能力非常强,在多项复杂基准测试中体现出与大130亿参数模型接近或者超过的效果。

视觉编码器采用了与MiniGPT-v2相同的架构,基于ViT的EVA模型。这是一个预训练好的视觉基础模型,在整个TinyGPT-V的训练过程中保持冻结状态。

线性投影层的作用则是,将视觉编码器提取的图像特征嵌入到大语言模型中,使大语言模型能够理解图像信息

TinyGPT-V中的第一层线性投影层采用了来自BLIP-2的Q-Former结构,这样可以最大程度复用BLIP-2的预训练成果。

第二层线性投影层用新的高斯分布初始化,目的是弥补前一层输出和语言模型嵌入层之间的维度差距。


TinyGPT-V训练流程


TinyGPT-V的训练经过了四个阶段,每个阶段所使用的数据集及实验流程各不相同。

第一阶段是热身训练,目的是使Phi-2模型适应图像模式的输入。这个阶段使用的训练数据包含Conceptual Caption、SBU和LAION三个数据集,总计约500万幅图像和对应的描述文本。

第二阶段进行预训练,目的是进一步减少图像文本对上的损失。这个阶段同样使用第一阶段的Conceptual Caption、SBU和LAION数据集。实验设置了4个阶段,每个阶段有5000个迭代。

第三阶段进行指令调优,使用MiniGPT-4和LLaVA的一些带指令的图像文本对进行模型训练,如“描述这张图片的内容”。

第四阶段进行多任务调优。这一阶段使用了更为复杂和丰富的多模态数据集,如LLaVA中复杂语义对齐的句子、Flickr30K中的物体解析数据集、多任务混合语料、纯文本语料等。

同时采用了与第二阶段类似的学习率策略,最终使得损失从2.720下降到了1.399。

为了测试TinyGPT-V的性能,研究人员从多个角度评估了在视觉问答、视空间推理、图片字幕生成等多个视觉语言任务上的表现。

结果显示,TinyGPT-V的参数很小,性能却非常强悍,例如,在VSR空间推理任务上,以53.2%的准确率,超过所有参与测试的模型。



编辑:web3528btc 来源:加密钱包代币

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(专注热点分享网)
    手机查看(二维码扫一扫)

    每日快讯网,最有影响力热点信息分类网站,覆盖品牌价值、汽车资讯、视频、基金、财经、房产、金融新闻、券商、公司等多类信息分享交流,免费提供最有价值的头条信息平台。
    « 2025年 » « 04月 »
    123456
    78910111213
    14151617181920
    21222324252627
    282930

    最新资讯

    [开户代运营]男科流量,承接 男科 中医 鹿茸 前列腺 强弓 蛮龙液等男性产品推广
  • 2025-04-28 11:52:10

     

    [开户代运营]腾讯 头条霉茶血糖 西洋参 三七等食品量
  • 2025-04-28 11:47:06

     

    [开户代运营]抖音垂直cpa量,祛斑,祛痘,黑发,生发,祛疤,祛皱,气血 ,狐臭,黑眼圈等
  • 2025-04-28 11:42:01

     

    [开户代运营] 百度(baidu)大搜 小病种 代运营,量大的客户来
  • 2025-04-28 11:36:57

     

    [开户代运营]高德、微博粉丝通、支付宝、爱奇艺、优酷等广告开户代运营、高政策收量,具体情况看详情~
  • 2025-04-28 11:31:53

     

    [开户代运营]头条抖音/微博粉丝通/Soul代理商,全行业开户/代运营包素材
  • 2025-04-28 11:26:49

     

    [开户代运营]快手磁力金牛和千川,代理商,磁力金牛高政策, 千川代运营。千川开户,千川高政策。品牌
  • 2025-04-28 11:21:45

     

    [开户代运营]抖音快手减肥 千川直播间资源,有需要的详聊。
  • 2025-04-28 11:16:41

     

    [开户代运营]微信朋友圈广告投放渠道 不限地区 无资质可投 房产汽车、贷款、医美等行业不限
  • 2025-04-28 11:11:36

     

    [开户代运营]腾讯系-微信朋友圈第五条广告投放精准获客渠道 全国全行业接单 找我不浪费一分广告费
  • 2025-04-28 11:06:32

     

    [开户代运营]百度(baidu)开户/托管/代运营
  • 2025-04-28 11:01:28

     

    [开户代运营]行发一手男科户 多资质 持续上新 高点收量
  • 2025-04-28 10:56:24

     

    [开户代运营]成人学历,研究生咨询流量,热门渠道同步投放,量大稳定高转化,全国可接,欢迎咨询测试!
  • 2025-04-28 10:51:20

     

    [开户代运营]口腔牙科种植意向表单,帮助医院门店机构精准拓客引流,稳定出量中,产出比高
  • 2025-04-28 10:46:16

     

    [开户代运营] 艾草枕 艾草锤 足浴包 加粉,日产过万条,按A结算
  • 2025-04-28 10:41:11