可将任意大模型实现多模态,苹果开源4M_每日快讯(日常热点指南)

可将任意大模型实现多模态,苹果开源4M


可将任意大模型实现多模态,苹果开源4M

  2023-12-20 19:16:34     简体|繁體
http://news.qghjm.com/1021832.html

原文来源:AIGC开放社区

图片来源:由无界 AI生成

随着ChatGPT等模型被广泛应用,用户对功能的需求也呈多模态发展,例如,在单一模型上既能生成文本也可以生成图片等。

但现有视觉模型通常仅针对单一模态和任务进行优化,缺乏能够处理多种模态和任务的通用能力。

为了解决这一难题,苹果的研究人员和全球著名公立大学EPFL(瑞士洛桑联邦理工学院)联合开发了4M框架并即将开源。4M可以把多种输入/输出模态,包括文本、图像、几何、语义模态以及神经网络特征图等,全部集成在大模型中(适用于Transformer架构)。

项目地址:https://4m.epfl.ch/

论文地址:https://arxiv.org/abs/2312.06647

4M技术原理简单介绍

相比以往单一模态下的深度学习方法,4M最大的技术亮点在于使用了一种名为"Massively Multimodal Masked Modeling"(大规模多模态屏蔽建模)的训练方法。

可以同时处理图像、语义、几何等各类视觉模态,将影像、字幕、框架信息等,都能以离散 tokens 的形式完美“翻译”出来,实现各模态在表示空间上的统一。

为确保tokens之间协调一致,4M还在注意力机制中加入模态区分,禁止不同模态之间互相影响。同时4M训练采用掩码重建目标,实际上相当于进行模态间的预测编码。

在训练过程中,模型会随机选择一小部分标记作为输入,另一小部分标记作为目标,通过解耦输入和目标标记的数量与模态数量的关系,实现了可扩展的训练目标。

简单来说,无论用户输入的内容是图片还是文本,对于4M来说都是一串标准化的数字标记。这种“通用语言”设计有效阻断了各模态特有信息对模型架构的影响,极大提升了模型的通用性。


训练数据和方法


4M将在训练过程中使用了全球最大的开源数据集之一CC12M,包含图像、深度图、语义信息、文本等各类数据集。

虽然CC12M的数据很多,但缺乏准确的标注信息。为了解决这个难题,研究人员使用了一种高效、成本又低的方法——弱监督伪标签。这个与前几天OpenAI开源的超级对齐方法很相似。

通过利用CLIP、MaskRCNN等技术,对CC12M的图像数据集进行全面预测,然后得到语义、几何及视觉特征等丰富模态信息。

再使用转换“翻译”模块将所有伪标签信息,统一转化为离散表示的“tokens”。这为4M在不同模态之间实现统一的兼容奠定基础。

研究人员在广泛的实验和基准测试平台中对4M进行了测试,可以直接执行多模态任务,而无需进行大量的特定任务预训练或微调。



编辑:web3528btc 来源:加密钱包代币

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2017年 » « 06月 »
    1234
    567891011
    12131415161718
    19202122232425
    2627282930

    最新资讯

    我是河南优信互动的总经理袁芳,[开户代运营] 抖音 免领新品 老花镜 (有货源)驼绒被,貂绒大衣 ,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 07:09:38

     

    我是广州博芯的商务经理刘焕鹏,[开户代运营]抖音千川一代开户品牌对公2.5白牌对公1.5对私3,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 07:01:31

     

    我是江西恒新的商务经理罗相信,[开户代运营]oppo vivo信息流,百货粉,暖菜板,驼绒被,睡眠仪,养生壶切量,需要来,我们是广告媒体方,欢迎点击对接合作与我联系。
  • 2026-01-15 06:53:25

     

    我是民众普康的ad信息流销售何骋远,[开户代运营]千川白牌5 一手婚恋相亲表单 三 角洲护航有量 、抖快手涨粉 、手机回收、抖音证券,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 06:45:19

     

    我是云道科技的渠道销售经理余旋,[开户代运营]多套快手人力加白主体,主体正常无限流,判罚倍数低,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 06:37:13

     

    云蓝科技---提供社区,朋友圈,公众号,TMK等渠道资源
  • 2026-01-15 06:29:07

     

    腾讯朋友圈广告,视频号,禁投限制行业接单,无资质单,特殊行业,源头端口,**现户资质全包!
  • 2026-01-15 06:21:01

     

    千橙广告!
  • 2026-01-15 06:12:55

     

    我是振华创盈的市场经理王迪,[开户代运营]脸书gp jy jz等各类型粉,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 06:04:48

     

    我是微点科技的营销总监陈阳,[开户代运营]腾讯朋友圈广告,视频号,禁投限制行业接单,无资质单,特殊行业,源头端口,套户现户资质全包!,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 05:56:42

     

    我是广州屹心的销售总监苏锦文,[开户代运营]腾讯视频熊胆粉/治疗仪器/血糖仪/血压计,缺量的老板可来咨询 ,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 05:48:36

     

    我是武汉维冠的武汉维冠,[代运营托管]头条软文加粉血糖,胆结石,眩晕症,眼病,耳鸣,哮喘肺病,痛风,便秘,股骨头腰椎,仪器,当天转化1:1,源头出粉,实时数据可查,我们是乙方综合性服务商,欢迎点击对接
  • 2026-01-15 05:40:30

     

    我是语霏科技的销售总监聂绍军,[代运营托管]视频号股票粉 抖音 视频号 免领取养生粉,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 05:32:24

     

    我是独角兽的运营专员宋航,[代运营托管]肠胃订单粉 源头出量,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 05:24:17

     

    我是武汉舜动的商务专员沈四梅,[代运营托管]抖音养生粉,好量高转化,需要的滴滴,我们是,欢迎点击对接合作与我联系。
  • 2026-01-15 05:16:11