8天狂收6100颗星,可商用!东京工业、麻省理工等开源Stream Diffusion_每日快讯(日常热点指南)

8天狂收6100颗星,可商用!东京工业、麻省理工等开源Stream Diffusion


8天狂收6100颗星,可商用!东京工业、麻省理工等开源Stream Diffusion

  2023-12-31 04:16:28     简体|繁體
http://news.qghjm.com/1028768.html

原文来源:AIGC开放社区

图片来源:由无界 AI‌生成

加州大学伯克利分校、东洋大学、东京工业大学、麻省理工学院和筑波大学等研究人员,联合开源了一款创新性实时交互图像生成框架——Stream Diffusion。

Stream Diffusion的技术创新点在于,将传统的顺序去噪变成流批处理去噪,消除了漫长的等待、交互生成方式,实现了流畅且吞吐量超高的图像生成方法

同时引入了“残差无分类器指导”方法,进一步提升了流批处理的效率和图像质量。

根据Stream Diffusion在Github上的项目提交历史记录显示,仅用了8天的时间就收到6100颗星成为霸榜开源产品,其性能和欢迎程度可见一斑。允许开发者商用。

开源地址:https://github.com/cumulo-autumn/StreamDiffusion

论文地址:https://arxiv.org/abs/2312.12491

Demo展示:https://github.com/cumulo-autumn/StreamDiffusion/blob/main/assets/demo_03.gif

目前,扩散模型在图像生成方面获得了广泛应用并成功实现商业化落地,例如,该领域的标杆产品Midjourney。

但在实时交互方面表现不佳需要漫长的等待,尤其是涉及连续输入的场景中尤为明显。

为了解决这些难题,研究人员设计了一种新颖的输出、输入方法,就是将原始的顺序去噪转化为批处理去噪过程。

简单来说,Stream Diffusion相当于大模型领域的机械化流水作业,将单一、繁琐的去噪、推理流程改成批量处理。


流批式去噪方法


流批式去噪是Stream Diffusion的核心功能之一,也是实现实时交互的关键所在。

传统的交互式扩散模型都是顺序执行:一次输入一张图片,走完全部的去噪步骤后,再输出一张结果图像。然后不断重复这个过程,生成完成更多的图像处理。

这样就造成一个很大的问题速度和质量难以同时得到保证。为了生成高质量的图像,需要设置较多的去噪步骤,导致生成图像的效率较慢,无法做到“鱼与熊掌”兼得。

流批式去噪的核心思想是:当输入第一张图像开始去噪步时,不必等待它完成,就可以接收第二张图像,以实现批量方式处理。

这样,U-Net只需要不断调用,处理一个批量的特征,就可以高效实现图像生成流水线的批量推进。

此外,流批式去噪方法的好处在于,每次调用U-Net就可以使多个图像同时推进一步,而U-Net的批量运算非常适合GPU并行计算,所以整体运算效率非常高。

最终可以在保证质量的同时,显著缩短单张图像的生成时间。


残差无分类器指导


为了强化提示条件对结果的影响,扩散模型通常使用一种叫“无分类器指导”的策略。

在传统方法中,计算负条件向量时需要对每个输入潜向量配对负条件嵌入,每次推理都要调用U-Net算力消耗巨大。

为了解决这个问题,研究人员提出了“残差无分类器指导”方法。其核心方法是,假定存在一个“虚拟残差噪声”向量,用来逼近负条件向量

首先计算“正条件”向量,再用正条件向量反推这个虚拟负条件向量。这样就避免了每次都要额外调用U-Net来计算真实的负条件向量,从而大幅减少了算力。

简单来说,就是用原始的输入图像编码作为负样本,无需调用U-Net就可以计算。稍微复杂一点的“一次负条件”,是在第一步使用U-Net计算一次负向量,然后重复使用这个向量近似后面的所有负向量。


流水线作业


该模块的功能是使整个系统的瓶颈不再是数据格式的转换,而是基于模型本身的推理时间。

通常,输入的图片需要缩放、转换格式等预处理才能成为模型可用的张量;输出的张量也需要后处理恢复为图片格式,整个流程消耗大量时间和算力。

流水线作业将预/后处理与模型推理完全分离开来,置于不同的线程中并行执行。输入图像经过预处理进入输入队列缓存;

输出张量从输出队列发出,再后处理为图片。这样两者就可以不互相等待,从而优化了整体流程速度。

此外,该方法还起到平滑数据流的作用。当输入源故障或通信错误导致暂时没法传入新图像时,队列可以继续提供之前缓存的图像,保证模型的流畅运行。


随机相似度过滤


该模块的功能是显著减少GPU算力消耗。当输入的图片连续相同或高度相似时,反复推理是没有任何意义的。

所以,相似度过滤模块计算输入图片与历史参考帧的相似度。如果高于设定阈值,则以一定概率跳过后续的模型推理;

如果低于阈值,则正常进行模型推理并更新参考帧。这种概率采样机制使得过滤策略可以平滑自然地对系统进行节流,降低平均GPU使用率。

在静态输入下过滤效果明显,动态变化大时自动降低过滤率,系统可以自适应场景动态性。

这样,复杂度动态变化的连续流输入下也可以自动调节系统推理负载,节约GPU算力消耗。


实验数据


为了测试Stream Diffusion的性能,研究人员在RTX3060、RTX4090上进行了测试。

效率方面,实现了超过91 FPS的生成帧率,是当前最先进的AutoPipeline的近60倍,并极大减少去噪步骤。

功耗方面,静态输入下,RTX3060和RTX4090的平均功率分别降低了2.39倍和1.99倍。



编辑:web3528btc 来源:加密钱包代币

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2002年 » « 05月 »
    12345
    6789101112
    13141516171819
    20212223242526
    2728293031

    最新资讯

    新春走基层 | 森一量子为赶订单全员在线 生产线满负荷运转
  • 2026-02-24 16:28:11

     

    新春走基层丨厦企加快数字化转型步伐 提前返岗忙生产赶订单
  • 2026-02-24 16:19:08

     

    春节我在岗 | 当好城市“摆渡人” 让游客暖心出行
  • 2026-02-24 16:10:04

     

    新春走基层:晨曦微露 “橙”光先行
  • 2026-02-24 16:01:01

     

    一间房一群人一座城丨新春走基层
  • 2026-02-24 15:51:57

     

    保准妈妈与新生儿的保险是什么?哪些坑要特别注意避开?
  • 2026-02-24 15:42:54

     

    放心借逾期会上门走访吗?可以协商还款吗?
  • 2026-02-24 15:33:51

     

    我是安徽科又的商务经理陈香楠,[开户代运营]【流量种类】微压锅,买菜车,养生壶,艾灸毯,扫地机器人,菜板,银杯,睡眠仪等各类百货纯女、男女都有量 自家产量 日供3W➕粉 黑发,JF,,我们是,欢迎点击
  • 2026-02-24 15:24:47

     

    生病了再去买保险还有用吗?医保报销比例是多少?
  • 2026-02-24 15:15:44

     

    我是汇朴科技的运营主管赵辉辉,[开户代运营]①电商订单/快递面单解M。②出(京东、淘宝、海淘)平台指定产品料子痔疮,减肥,男科,妇科,神经酸等 ③信息流埋点 点击获客 公司产品信息G,我们是推广代运营
  • 2026-02-24 15:06:40

     

    我是全网互动的总经理李裕全,[开户代运营]巨量本地推、千川开户充值,官方一代政策拉满秒开秒充,接代运营和来客poi 直营直客户代开,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-02-24 14:57:37

     

    我是宁波微欧的商务经理孙如意,[开户代运营]养生壶 热菜板 驼绒被 艾灸毯 驼绒马甲 艾灸鞋 治疗仪 银碗 暖菜板有量,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-02-24 14:48:34

     

    招商信用卡逾期还不上钱怎么办?逾期一个月会怎么样?
  • 2026-02-24 14:39:30

     

    我是广州聚盛的商务经理伍思扬,[开户代运营]小红书气血和减肥量,百度(baidu)大搜减肥也有量,去皱社群有量,抖音祛痘毛孔祛斑黑发有量,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-02-24 14:30:27

     

    京东白条逾期了?最佳处理时机和应对方法都在这,逾期怎么办?
  • 2026-02-24 14:21:23