对标Gen-2!Meta发布新模型,进军文生视频赛道_每日快讯(日常热点指南)

对标Gen-2!Meta发布新模型,进军文生视频赛道


对标Gen-2!Meta发布新模型,进军文生视频赛道

  2023-12-25 09:58:44     简体|繁體
http://news.qghjm.com/1025024.html

原文来源:AIGC开放社区

图片来源:由无界 AI生成

随着扩散模型的飞速发展,诞生了Midjourney、DALL·E 3、Stable Difusion等一大批出色的文生图模型。但在文生视频领域却进步缓慢,因为文生视频多数采用逐帧生成的方式,这类自回归方法运算效率低下、成本高。

即便使用先生成关键帧,再生成中间帧新方法。如何插值帧数,保证生成视频的连贯性也有很多技术难点。

科技、社交巨头Meta则提出了一种全新的文生视频模型Emu Video。该模型使用了分解式生成方法,先生成一张图像,再以该图像和文本作为条件生成视频,不仅生成的视频逼真符合文本描述,算力成本也非常低。

论文:https://emu-video.metademolab.com/assets/emu_video.pdf‌

在线demo:https://emu-video.metademolab.com/#/demo‌

Emu Video的核心技术创新在于,使用了分解式生成方法。之前,其他文生视频模型是直接从文本描述映射到高维视频空间。

但由于视频维度非常高,直接映射非常困难。Emu Video的策略是首先生成一张图像,然后以该图像和文本作为条件,生成随后的视频帧

由于图像空间维度较低,生成第一帧更容易,然后生成后续帧只需要预测图像如何变化,这样整个任务难度很大程度降低。

技术流程方面, Emu Video利用先前训练好的文本到图像模型来固定空间参数,初始化视频模型

然后仅需要训练时间参数来进行文本到视频任务。在训练时,模型以视频片段及相应文本描述作为样本进行学习。

在推理时,给定一段文本后,先用文本到图像部分生成第一帧图像,再输入该图像及文本到视频部分生成完整的视频。


文本到图像


Emu Video使用了一个训练好的文本到图像模型,可以生成很逼真的图片。为了让生成的图片更有创意,这个模型在海量的图像和文本描述进行预训练,学到了很多图像的风格,例如,朋克、素描、油画、彩绘等。

文本到图像模型采用了U-Net结构,包含编码器和解码器。编码器包含多层卷积块,并降采样获得较低分辨率的特征图。

解码器包含对称的上采样和卷积层,最终输出图像。两个文本编码器(T5和CLIP模型)被并行加入,分别对文本进行编码产生文本特征。


图像到视频


这个模块使用了跟文本到图像模块类似的结构,也是一个编码器-解码器结构。不同的是增加了处理时间信息的模块,也就是说可以学习如何把图片中的内容变化成一个视频。

在训练的过程中,研究人员输入一小段视频,随机抽取其中的一帧图片,让这个模块学习根据这张图片和对应的文本生成整段视频

在实际使用时,先用第一个模块生成第一帧图片,然后输入这张图片和文本给第二个模块,让它生成整个视频。

这种分解的方法让第二个模块的任务变得比较简单,只需要预测图片会随着时间而怎么变化和运动,就可以生成流畅逼真的视频。

为了生成更高质量逼真的视频,研究人员进行了一些技术优化:1)采用零终端信噪比的散度噪声计划,能够直接生成高清视频,无需级联多个模型。之前的计划在训练和测试阶段信噪比存在偏差,导致生成质量下降。

2)利用预训练文本到图像模型固定参数,保留图像质量和多样性,生成第一帧时不需额外训练数据和计算成本。

3)设计多阶段训练策略,先在低分辨率训练快速采样视频信息,再在高分辨率进行微调,避免全程高分辨率的计算量大。

在人类评估中显示,Emu Video生成的4秒长视频比其他方法更具质量和遵循文本的要求。语义一致性超过86%,质量一致性超过91%,明显优于Gen-2、Pika Labs、Make-A Video等知名商业模型。



编辑:web3528btc 来源:加密钱包代币

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2026年 » « 01月 »
    1234
    567891011
    12131415161718
    19202122232425
    262728293031

    最新资讯

    我是广州默耘的大客户经理谢金彪,[代运营托管]腾讯快手AI剪辑,日供5000+源头供量,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 14:51:29

     

    我是河南随风去的渠道经理丁事亮,[代运营托管]本地推16 汽后10收量,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 14:43:23

     

    铁路12306线上广告位 寻食品美妆个护金融品牌推广合作
  • 2026-01-15 14:35:17

     

    提供小说,短剧类(快应用,小程序)工具类(益智类,测评类,壁‮类纸‬等)推广渠道,日耗10+,寻甲方
  • 2026-01-15 14:27:11

     

    想买一个保终身的重疾险,有推荐吗?应该怎么选择呀?不踩坑+高口碑
  • 2026-01-15 14:19:05

     

    我是语霏科技的销售总监聂绍军,[代运营托管]抖音。视频号 免费养生粉CPA 几十个品,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 14:10:58

     

    信用卡逾期停止催收还要还钱吗?停催后银行会采取哪些措施?
  • 2026-01-15 14:02:52

     

    白条逾期10天能补救吗?白条逾期10天的后果
  • 2026-01-15 13:54:46

     

    借呗分期逾期10天会怎样?有什么补救方法吗?
  • 2026-01-15 13:46:40

     

    我是傲视科技的销售总监侯明,[开户代运营]快手维权户zp,法律咨询,个债,gp,证券财商,相亲,有量的来勾兑,我们是,欢迎点击对接合作与我联系。
  • 2026-01-15 13:38:34

     

    我是河南随风去的销售组长刘朋朋,[开户代运营][开户代运营]抖音祛斑粉气血粉减肥粉,本地推16收,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 13:30:27

     

    我是河南速铭的市场经理曹阳,[开户代运营]千川本地推开户充值,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 13:22:21

     

    我是亿企互联的媒介经理黄兰兰,[开户代运营]:巨量ad+本地推开户+代运营:家庭教育,学历提升,兴趣培训,月子中心,婚纱摄影,培训机构,展会,出国移民留学等行业,我们是乙方综合性服务商,欢迎点击对接合
  • 2026-01-15 13:14:15

     

    我是联名科技的销售客服小k,[开户代运营]高德地图商户通运动培训:充广告免年费;,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 13:06:09

     

    我是联名科技的渠道销售雷鸣,[开户代运营]高德地图2026教培扶持!免年费!打4 折!,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 12:58:03