超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能_每日快讯(日常热点指南)

超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能


超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能

  2023-12-02 02:50:41     简体|繁體
http://news.qghjm.com/1010285.html

研究人员利用GPT4-Vision构建了一个大规模高质量图文数据集ShareGPT4V,并在此基础上训练了一个7B模型,在多项多模态榜单上超越了其他同级模型。

原文来源:新智元

图片来源:由无界 AI生成

OpenAI在九月份为ChatGPT添加了图像输入功能,允许用户使用上传一张或多张图像配合进行对话,这一新兴功能的背后是一个被OpenAI称为GPT4-Vision的多模态(vision-language)大模型。

鉴于OpenAI对「闭源」的坚持,多模态开源社区如雨后春笋般涌出了众多优秀的多模态大模型研究成果,例如两大代表作MiniGPT4和LLaVA已经向用户们展示了多模态对话和推理的无限可能性。

在多模态大模型(Large Multi-modal Models)领域,高效的模态对齐(modality alignment)是至关重要的,但现有工作中模态对齐的效果却往往受制于缺少大规模的高质量的「图像-文本」数据。

为了解决这一瓶颈,近日,中科大和上海AI Lab的研究者们最近推出了具有开创性意义的大型图文数据集ShareGPT4V。

论文地址:https://arxiv.org/abs/2311.12793Demo演示:https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B项目地址:https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V

ShareGPT4V数据集包含120万条「图像-高度详细的文本描述」数据,囊括了了世界知识、对象属性、空间关系、艺术评价等众多方面,在多样性和信息涵盖度等方面超越了现有的数据。

表1 ShareGPT4V和主流标注数据集的比较。其中「LCS」指LAION, CC和SBU数据集,「Visible」指明了图片在被标注时是否可见,「Avg.」展示了文本描述的平均英文字符数。

目前,该数据集已经登上了Hugging Face Datasets Trending排行第一。

数据

ShareGPT4V来源于从先进的GPT4-Vision模型获得的10万条「图像-高度详细的文本描述」数据。

研究者们从多种图片数据源(如COCO,LAION,CC,SAM等)搜集图片数据,接着使用各自数据源特定的prompt来控制GPT4-Vision产生高质量的初始数据。

如下图所示,给GPT4-Vision模型一张《超人》剧照,其不仅可以准确地识别出《超人》剧照中的超人角色以及其扮演者Henry Cavill,还可以充分分析出图像内物体间的位置关系以及物体的颜色属性等。

图1 利用GPT4-Vision 收集ShareGPT4V原始数据流程图

如果给GPT4-Vision模型一个梵高的画作《播种者》,其不仅可以准确地识别出画作的名称,创作者,还可以分析出画作所属的艺术流派,画作内容,以及画作本身表达出的情感与想法等信息。

为了更充分地与现有的图像描述数据集进行对比。我们在下图中将ShareGPT4V数据集中的高质量文本描述与当前多模态大模型所使用的数据集中的文本描述一起罗列出来:

图 2 「图片-文本描述」数据质量对比图

从图中可以看出,使用人工标注的COCO数据集虽然正确但通常十分的短,提供的信息极其有限。

LLaVA数据集使用语言模型GPT4想象出的场景描述通常过度依赖bounding box而不可避免地带来幻觉问题。比如bounding box确实会提供8个人的标注,但其中两个人在火车上而不是在等车。

其次,LLaVA数据集还只能局限于COCO的标注信息,通常会遗漏人工标注中没提及的内容(比如树木)。

在比较之下,我们收集的图像描述不仅可以给出综合性的描述,还不容易遗漏图像中的重要信息(比如站台信息和告示牌文字等)。

通过在该初始数据上进行深入训练后,研究者们开发出了一个强大的图像描述模型Share-Captioner。利用这一模型,他们进一步生成了120万高质量的「图片-文本描述」数据ShareGPT4V-PT以用于预训练阶段。

图3 图像描述模型扩大数据集规模流程图

Share-Captioner在图像描述能力上有着媲美GPT4-Vision的水平,下面是对于同一张图片的不同来源的文本描述:

图4 不同来源图像描述对比图

从上图可以看出Share-Captioner缩小了与GPT4-Vision模型在图像描述任务上的能力。可以作为收集大规模高质量图文数据对的「平替」。

实验

研究者们首先通过等量替换实验,在有监督微调(SFT)阶段充分展示了ShareGPT4V数据集的有效性。

从图中可以看出,ShareGPT4V数据集可以无缝地使得多种架构、多种参数规模的多模态模型的性能得到大幅提升!

图5 使用ShareGPT4V数据集等量替换SFT中图像描述数据后模型效果对比图

接下来,研究者们将ShareGPT4V数据集同时在预训练和有监督微调阶段使用,得到了ShareGPT4V-7B模型。

ShareGPT4V-7B在绝大多数多模态基准测试中都取得了非常优异的成果,在7B的模型规模全部取得了最优的性能!

图6 ShareGPT4V-7B在各个多模态基准测试上的表现

总体而言,ShareGPT4V数据集的推出为未来的多模态研究与应用奠定了新的基石。多模态开源社区有望着眼于高质量图像描述开发出更强大、智能的多模态模型。

参考资料:

https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V



编辑:web3528btc 来源:加密钱包代币

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 1993年 » « 02月 »
    1234567
    891011121314
    15161718192021
    22232425262728

    最新资讯

    我是巨划算的销售专员练文杰,[开户代运营]百度(baidu)电商高点开户代运营 50+收量,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-01-11 16:51:58

     

    抖音广告,抖音seo,小程序,团购,抖音小店,短视频代运营,抖音图文,爱采购,360开户,蓝v
  • 2026-01-11 16:43:51

     

    我是宏辰乐汇的销售经理张一帆,[开户代运营] 我们是票圈核代 免领 注册66+转化1/3 精准中老年流量,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-11 16:35:45

     

    多个领域教育科研机构尝试通过“预印本”打破知识壁垒
  • 2026-01-11 16:27:39

     

    卧龙新能1.97亿剥离资产优化资源配置   三次跨界未果新能源收入单季减少1.03亿
  • 2026-01-11 16:19:33

     

    绿叶制药:若欣林新适应症中国上市申请获受理,用于治疗广泛性焦虑障碍
  • 2026-01-11 16:11:27

     

    28.29亿元市值限售股今日解禁
  • 2026-01-11 16:03:21

     

    两地创客共烹“一桌太湖菜”
  • 2026-01-11 15:55:15

     

    AI医疗应用场景有望加速落地 获机构密集调研的概念股出炉
  • 2026-01-11 15:47:08

     

    同飞股份斥资9亿布局南北双基地   加码温控赛道归母净利连增4个季度
  • 2026-01-11 15:39:02

     

    再升科技业绩承压郭茂累套现5.36亿   股价大涨1.5倍蹊跷终止股份转让
  • 2026-01-11 15:30:56

     

    绿叶制药:若欣林新适应症中国上市申请获受理,用于治疗广泛性焦虑障碍
  • 2026-01-11 15:22:50

     

    借呗逾期第三方催收要上门怎么办?借呗逾期后3步恢复信用
  • 2026-01-11 15:14:44

     

    我是河南随风去的销售组长刘朋朋,[开户代运营]本地推超高点收量。视频号&抖音:砂锅、养生壶、男士内裤、微压锅 艾灸毯 银水杯 驼绒马甲 治疗仪 小护士源头好量[勾引]​,我们是乙方综合性服务商,欢迎
  • 2026-01-11 15:06:38

     

    我是广州云狄的广告销售赵善钟,[开户代运营]本地推口腔 植发 眼科 医美 整形 生美 律所 旅游 招商加盟 餐饮等全行业开户,协助直客免费加白,欢迎咨询,我们是广告媒体代理商,欢迎点击对接合作与我联系
  • 2026-01-11 14:58:31