文生图10倍速,视频实时渲染!清华发布LCM:兼容全部SD大模型、LoRA、插件等_每日快讯(日常热点指南)

文生图10倍速,视频实时渲染!清华发布LCM:兼容全部SD大模型、LoRA、插件等


文生图10倍速,视频实时渲染!清华发布LCM:兼容全部SD大模型、LoRA、插件等

  2023-11-26 12:56:49     简体|繁體
http://news.qghjm.com/1006489.html

来源:新智元

作者:谭炜达

编辑:LRS 好困

图片来源:由无界AI 生成

Latent Consistency Models(潜一致性模型)是一个以生成速度为主要亮点的图像生成架构。

和需要多步迭代传统的扩散模型(如Stable Diffusion)不同,LCM仅用1 - 4步即可达到传统模型30步左右的效果。

由清华大学交叉信息研究院研究生骆思勉和谭亦钦发明,LCM将文生图生成速度提升了5-10倍,世界自此迈入实时生成式AI的时代。

LCM-LoRA: https://huggingface.co/papers/2311.05556

项目主页:https://latent-consistency-models.github.io/

Stable Diffusion杀手:LCM

在LCM出现之前, 不同团队在各种方向探索了五花八门的SD1.5和SDXL替代方案。

这些项目各有特色,但都存在着不兼容LoRA和不完全兼容Stable Diffusion生态的硬伤。按发布时间顺序,比较重要的项目有:

这时,LCM-LoRA出现了:将SD1.5、SSD1B、SDXL蒸馏为LCM的LoRA,将生成5倍加速生成能力带到所有SDXL模型上并兼容所有现存的LoRA,同时牺牲了小部分生成质量; 项目迅速获得了Stable Diffusion生态大量插件、发行版本的支持。

LCM同时也发布了训练脚本,可以支持训练自己的LCM大模型(如LCM-SDXL)或LCM-LoRA,做到兼顾生成质量和速度。只要一次训练,就可以在保持生成质量的前提下提速5倍。

至此,LCM生态体系具备了完整替代SD的雏形。

截止至2023/11/22,已支持LCM的开源项目:

计划中添加支持的项目:



随着生态体系的逐渐发展,LCM有潜力作为新一代图像生成底层完整替代Stable Diffusion。


未来展望


自Stable Diffusion发布至今,生成成本被缓慢优化,而LCM的出现使得图像生成成本直接下降了一个数量级。每当革命性的技术出现,都会带来重塑产业的大量机会。LCM至少能在图像生成成本消失、视频生成、实时生成三大方面给产业格局带来重大变化。

1. 图像生成成本消失

To C产品端,免费替代收费。受高昂的GPU算力成本限制,以Midjourney为代表的大量文生图服务选择免费增值作为商业模型。LCM使手机客户端、个人电脑CPU、浏览器(WebAssembly)、更容易弹性扩容的CPU算力都可能在未来满足图像生成的算力需求。简单的收费文生图服务如Midjourney会被高质量的免费服务替代。

To B服务端,减少的生成算力需求会被增长的训练算力需求替代。

AI图片生成服务对算力的需求在峰值和谷底涨落极大,购买服务器闲置时间通常超过50%。这种特点促进了大量函数计算GPU(serverless GPU)如美国Replicate、中国阿里云的蓬勃发展。

硬件虚拟化方面如国内的瑞云、腾讯云等也在浪潮中推出了图像模型训练相关虚拟桌面产品。随着生成算力下放到边缘、客户端或更容易扩容的CPU算力,AI生图将普及到各类应用场景中,图像模型微调的需求会大幅上涨。在图像领域,专业、易用、垂直的模型训练服务会成为下一阶段云端GPU算力的主要消费者。

2. 文生视频

文生视频目前极高的生成成本制约了技术的发展和普及,消费级显卡只能以缓慢的速度逐帧渲染。以AnimateDiff WebUI插件为代表的一批项目优先支持了LCM,使得更多人能参与到文生视频的开源项目中。更低的门槛必然会加速文生视频的普及和发展。

3分钟快速渲染:AnimateDiff Vid2Vid + LCM

3. 实时渲染

速度的增加催生了大量新应用,不断拓展着所有人的想象空间。

RT-LCM与AR

以RealTime LCM为先导,消费级GPU上第一次实现了每秒10帧左右的实时视频生成视频,这在AR领域必然产生深远的影响。

目前高清、低延时捕捉重绘视线内整个场景需要极高算力,所以过去AR应用主要以添加新物体、提取特征后低清重绘部分物体为主。LCM使得实时重绘整个场景成为可能,在游戏、互动式电影、社交等场景中都有无限的想象空间。

未来游戏场景不需新建,带上AR眼镜,身处的街道立刻转换为霓虹闪烁的赛博朋克未来风格供玩家探索;看未来的互动式恐怖电影时带上AR眼镜,家中熟悉的一切可以无缝融入场景,吓人的东西就藏在卧室门后。虚拟和现实将无缝融合,真实和梦境让人愈发难以区分。而这一切底层都可能会有LCM的身影。

RT-LCM视频渲染

交互方式 - 所想即所得(What you imagine is what you get)

由Krea.ai、ilumine.ai首先产品化的实时图像编辑UI再次降低了创作的门槛、扩大了创意的边界,让更多人在精细控制的基础上获得了最终画作的实时反馈。

Krea.ai实时图像编辑

实时图像编辑

建模软件 + LCM探索了3D建模的新方向,让3D建模师在所见即所得基础上更进一步,获得了所想即所得的能力。

LCM实时空间建模渲染

手是人类最没用的东西,因为手永远跟不上脑子的速度。所见即所得(What you see is what you get)太慢,所想即所得(What you imagine is what you get)会成为未来的创意工作的主流。

LCM第一次让展示效果跟上了灵感创意产生的速度。新的交互方式持续涌现,AIGC革命的终点是将创意的成本、技术门槛降低至无限接近于0。不分行业,好的创意将会从稀缺变为过剩。LCM将我们向未来又推进了一步。

欢迎对LCM有兴趣的朋友们加入LCM中文群: https://wx.hlcode.com.cn/?id=NKVa55S

参考资料:

https://latent-consistency-models.github.io/



编辑:LRS 好困

免责声明:
以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2026年 » « 02月 »
    1
    2345678
    9101112131415
    16171819202122
    232425262728

    最新资讯

    我是河南随风去的渠道经理丁事亮,[代运营托管]本地推团购15线索12收量,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-02-27 11:56:38

     

    装修线索 日结
  • 2026-02-27 11:47:34

     

    济宁太白湖新区行政审批服务局:精准服务促发展,创新赋能提效能
  • 2026-02-27 11:38:31

     

    免费筛查!河北省卫生健康委员会最新公告
  • 2026-02-27 11:29:28

     

    3月1日启动!2025年度个税汇算最新退税指南 扫码阅读手机版
  • 2026-02-27 11:20:24

     

    老年男子狂买26万金条 金店员工暗中报警 警方:涉诈
  • 2026-02-27 11:11:21

     

    济宁市任城区南张街道李楼社区开展“反诈宣传进商户”志愿服务活动
  • 2026-02-27 11:02:17

     

    反绑跪地、黑布蒙头,石家庄一景区猴戏表演被指虐动物
  • 2026-02-27 10:53:14

     

    11岁女孩食指小伤口险截指 “小感染”为啥会烂骨头?
  • 2026-02-27 10:44:10

     

    纵览原创 | 河北姑娘一条“剪纸鱼”视频打动1400万网友,“刻舟求剑”是长大后才懂的浪漫
  • 2026-02-27 10:35:07

     

    寿县古城举行迎春礼
  • 2026-02-27 10:26:04

     

    济宁市任城区李营街道临湖社区开展“志愿暖童心 欢乐伴寒假”志愿服务活动
  • 2026-02-27 10:17:00

     

    邯郸永年区启动市容环境“集中整治周”
  • 2026-02-27 10:07:57

     

    济宁市任城区李营街道:乡镇“就业大集”招聘会 家门口找工作更方便
  • 2026-02-27 09:58:54

     

    济宁市任城区南张街道满庄社区开展“老年人防范电信诈骗”宣传活动
  • 2026-02-27 09:49:50