最长处理2小时,开源视频字幕模型Video ReCap_每日快讯(日常热点指南)

最长处理2小时,开源视频字幕模型Video ReCap


最长处理2小时,开源视频字幕模型Video ReCap

  2024-03-05 09:54:05     简体|繁體
http://news.qghjm.com/1050100.html

文章来源:AIGC开放社区

图片来源:由无界AI生成

随着抖音、快手等平台的火爆出圈,越来越多的用户开始制作大量的短视频内容。但对这些视频进行有效的理解和分析仍面临一些困难。尤其是视频时长超过几分钟、甚至几小时,传统的视频字幕生成技术往往无法满足需求。

因此,北卡罗来纳大学和Meta AI的研究人员开源了,视频字幕模型Video ReCap。这是一种递归视频字幕生成模型,能够处理从1秒到2小时的视频,并在多个层级上输出视频字幕。

此外,研究人员通过在Ego4D上增加8,267个手动收集的长视频摘要,引入了一个层次化视频字幕数据集Ego4D-HCap,并使用该数据集对Video ReCap进行了综合评估。

结果显示,Video ReCap在短视频片段字幕、中等长度段描述和长视频摘要的测试指标均明显超过多个强大基准模型。通过该模型生成的分层视频字幕,也能显著提升基于EgoSchema数据集的长视频问答效果。

开源地址:https://github.com/md-mohaiminul/VideoRecap?tab=readme-ov-file

论文地址:https://arxiv.org/abs/2402.13250

Video ReCap模型介绍

Video ReCap的核心技术是使用了递归视频语言架构,主要通过递归处理机制,使模型能够在不同的时间长度和抽象层级上理解视频,从而生成精确且层次丰富的视频描述字幕。主要由3大模块组成。

1)视频编码器:Video ReCap使用了一个预训练的视频编码器,从长视频中提取特征。对于短视频片段,编码器则输出密集的时空特征。

这允许模型捕获细粒度的详细信息,对于更高层级的字幕,使用全局特征(如CLS特征),以降低计算成本并捕获长视频输入的全局属性。

2)视频-语言对齐:该模块可以将视频和文本特征映射到联合特征空间,以便递归文本解码器可以联合处理两者。

具体来说,使用了一个预训练的语言模型,通过在每个转换器块内注入可训练的交叉注意力层,从视频特征中学习固定数量的视频嵌入。

然后,从属于特定分层的字幕中学习文本嵌入。最后,连接视频和文本嵌入以获得联合嵌入,并交给后续的递归文本解码器使用。

3)递归文本解码器:该模块主要用于处理短、中、长三种视频的字幕,所以,采用了一种分层的生成策略。首先,使用从短视频剪辑中提取的特征生成短剪辑级别的字幕。这些短剪辑级别的字幕描述了视频中的原子动作和低级视觉元素,例如,对象、场景和原子动作等。

然后,使用稀疏采样的视频特征和上一层级别生成的字幕作为输入,生成当前层级别的视频字幕。这种递归设计可以有效地利用不同视频层次之间的协同作用,能高效地生成最多2小时的长视频字幕。

Video ReCap实验数据

为了评估Video ReCap模型,研究人员推出了一个新的分层视频字幕数据集Ego4D-HCap。该数据集是基于目前最大的公开第一人称视频数据集之一Ego4D。

Ego4D-HCap主要包含三个层次的字幕:短剪辑字幕、几分钟长的段描述和长段视频摘要,用于验证分层视频字幕任务的有效性。

结果显示,在所有三个时间层级,Video ReCap模型都大幅度优于之前的强大的视频字幕基准模型。此外,还发现递归架构对于生成段描述和视频摘要非常重要。

例如,不带递归输入的模型在段描述生成方面CIDEr性能下降1.57%,而在长时间视频摘要生成方面下降了2.42%

研究人员还在最近推出的长序视频问答基准EgoSchema上验证了该模型。结果显示,Video ReCap生成的分层视频字幕可以将文本问答模型的性能提高4.2%,并以50.23%的整体准确率刷新了记录,比之前的最佳方法提高了18.13%。



编辑:web3528btc 来源:加密钱包代币

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2014年 » « 04月 »
    123456
    78910111213
    14151617181920
    21222324252627
    282930

    最新资讯

    我是上海山升云的广告销售张丽丽,[开户代运营]股票户 支付链接落地等需求,我们是,欢迎点击对接合作与我联系。
  • 2025-12-31 12:09:59

     

    我是金板凳网络的运营经理李攀,[开户代运营]被骗维权户,不风控不限流,要稳定资质的来,我们是,欢迎点击对接合作与我联系。
  • 2025-12-31 12:01:53

     

    我是石家庄金板凳的网络运营李卫青,[开户代运营]股票户,不风控不限流,可跑支付链接,找靠谱渠道的来,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2025-12-31 11:53:47

     

    我是石家庄金板凳的广告销售王红哲,[开户代运营]被骗维权户,不风控不限流,要稳定资质的来,我们是,欢迎点击对接合作与我联系。
  • 2025-12-31 11:45:41

     

    我是十成科技的运营总监赵亮,[开户代运营]奢侈品回收、房产汽车交易/抵押、个债逾期处理、证券足球、企业贷/个贷、教育退费、征信优化、珠宝翡翠、防水补漏、情感交友咨询、商K预定等等,我们是广告媒体代理商
  • 2025-12-31 11:37:35

     

    我是巨划算的销售专员练文杰,[代运营托管]百度(baidu)电商26年Q1新政策已出炉 欢迎勾兑❗,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2025-12-31 11:21:22

     

    电销团队寻项目
  • 2025-12-31 11:13:17

     

    提供百度 抖音 快手 小红书 等各行业开户服务,好政策~
  • 2025-12-31 10:57:04

     

    我是安徽快磁互动的渠道专员陈蓉,[开户代运营]祛斑祛痘 电工证 财商 回收等高产量的户 目前都有在跑的成功案例 政策可谈!!!,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2025-12-31 10:48:57

     

    我是有信科技的销售经理汪华贝,[开户代运营]微信朋友圈广告投放渠道 提供全行业,禁投行业均可,免交保证金,包过审 ,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2025-12-31 10:40:51

     

    我是若愚网络的经理汪华贝,[开户代运营]微信朋友圈‬/视频号/公众号/搜索广告(百度(baidu)、360(so))投放,行业不限,全国可接,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2025-12-31 10:32:45

     

    我是信顺智联的业务经理蓝颂鹏,[开户代运营]海外全球国际直连短信营销通道 可随时下发测试接收,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2025-12-31 10:24:39

     

    我是傲视科技的总经理贾鹏,[开户代运营]快手一代,手机回收租赁 Ai剪辑,Ai橱窗带货员 证劵资质,财商资质,快手百度(baidu)腾讯,等全行业有,我们是,欢迎点击对接合作与我联系。
  • 2025-12-31 10:16:33

     

    合新高铁合泗段首发体验来了! 大皖新闻记者现场直击
  • 2025-12-31 10:08:27

     

    石家庄市裕华区文河社区手工剪纸迎新年
  • 2025-12-31 10:00:20