何恺明团队新作:扩散模型可能被用错了_每日快讯(日常热点指南)

何恺明团队新作:扩散模型可能被用错了


何恺明团队新作:扩散模型可能被用错了

  2025-11-24 03:27:07     简体|繁體
http://news.qghjm.com/1182403.html

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:量子位)

何恺明又一次返璞归真。

最新论文直接推翻扩散模型的主流玩法——不让模型预测噪声,而是直接画干净图。

如果你熟悉何恺明的作品,会发现这正是他创新的典型路径,不提出更复杂的架构,而是把问题拆回最初的样子,让模型做它最擅长的那件事

实际上,扩散模型火了这么多年,架构越做越复杂,比如预测噪声、预测速度、对齐latent、堆tokenizer、加VAE、加perceptualloss……

但大家似乎忘了,扩散模型原本就是去噪模型。

现在这篇新论文把这件事重新摆上桌,既然叫denoising模型,那为什么不直接denoise?

于是,在ResNet、MAE等之后,何恺明团队又给出了一个“大道至简”的结论:扩散模型应该回到最初——直接预测图像

当下的主流扩散模型,虽然设计思想以及名为“去噪”,但在训练时,神经网络预测的目标往往并不是干净的图像,而是噪声,或者是一个混合了图像与噪声的速度场

实际上,预测噪声和预测干净图差得很远。

根据流形假设,自然图像是分布在高维像素空间中的低维流形上的,是有规律可循的干净数据;而噪声则是均匀弥散在整个高维空间中的,不具备这种低维结构。

简单理解就是,把高维像素空间想象成一个巨大的3D房间,而干净的自然图像其实都挤在房间里的一块2D屏幕上。这就是流形假设——自然数据看着维度高,实则集中在一个低维的「曲面(流形)」上。

但噪声不一样。它是弥漫在整个3D房间里的雪花点,不在屏幕上;而速度场也一样,一半在屏上、一半在屏外,同样也脱离了「流形」的规律。

这就导致了一个核心矛盾,在处理高维数据时,例如将图像切分为16x16甚至32x32的大Patch,要求神经网络去拟合无规律的高维噪声,需要极大的模型容量来保留所有信息,这很容易导致模型训练崩溃。

而相反呢,如果让网络直接预测干净的图像,本质上就是让网络学习如何将噪点投影回低维流形,这对于网络容量的要求要低得多,也更符合神经网络“过滤噪声、保留信号”的原本设计。

于是,这篇文章提出了一个极简的架构JiT——JustimageTransformers。

正如其名,这就是一个纯粹处理图像的Transformer,它的设计非常简单。没有像普遍的扩散模型一样使用VAE压缩潜空间,也没有设计任何Tokenizer,不需要CLIP或DINO等预训练特征的对齐,也不依赖任何额外的损失函数。

完全从像素开始,用一个纯粹Transformer去做denoise

JiT就像一个标准的ViT,它将原始像素切成大Patch(维度可高达3072维甚至更高)直接输入,唯一的改动就是将输出目标设定为直接预测干净的图像块。

实验结果显示,在低维空间下,预测噪声和预测原图的表现难分伯仲;但一旦进入高维空间,传统的预测噪声模型彻底崩溃,FID(越低越优)指数级飙升,而直接预测原图JiT却依然稳健。

模型的扩展能力也很出色。即使将patch尺寸扩大到64x64,让输入维度高达一万多维,只要坚持预测原图,无需增加网络宽度也能实现高质量生成。

团队甚至发现,在输入端人为引入瓶颈层进行降维,不仅不会导致模型失效,反而因为契合了流形学习过滤噪声的本质,进一步提升了生成质量。

这种极简架构在不依赖任何复杂组件或预训练的情况下,在ImageNet256x256和512x512上达到了1.82和1.78的SOTA级FID分数。

这篇论文的一作是何恺明的开门弟子之一黎天鸿,本科毕业于清华姚班,在MIT获得了硕博学位之后,目前在何恺明组内从事博士后研究。

他的主要研究方向是表征学习、生成模型以及两者之间的协同作用。目标是构建能够理解人类感知之外的世界的智能视觉系统。

此前曾作为一作和何恺明开发了自条件图像生成框架RCG,团队最新的多项研究中他也都有参与。

也可以说这是一位酷爱湖南菜的学者,把菜谱都展示在了自己的主页上。

论文地址:https://arxiv.org/abs/2511.13720

—完—

海量资讯、精准解读,尽在新浪财经APP

编辑:财经 来源:市场资讯

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2023年 » « 10月 »
    1
    2345678
    9101112131415
    16171819202122
    23242526272829
    3031

    最新资讯

    危险信号!日媒爆料:日本完成对美返销“爱国者”导弹,系首次出口具有杀伤力武器
  • 2025-11-24 06:57:47

     

    “成都女子家门口被害案”今日开庭,被害人母亲将带着女儿照片出庭见证
  • 2025-11-24 06:49:41

     

    新人结婚大爷大妈进屋强行索要100元“喜钱”,多方回应
  • 2025-11-24 06:41:35

     

    从《唐诡3》探案到美妆探 “颜”!ZFC携手石悦安鑫&姜馥颐联解码盛唐底妆美学
  • 2025-11-24 06:33:29

     

    洗个澡,命就没了?医生提醒:千万别这样洗了,特别是夏天
  • 2025-11-24 06:25:23

     

    记者走基层|集装箱“搬上”无人车 解锁配送新技能
  • 2025-11-24 06:17:16

     

    厦门围绕“金鸡”品牌 在影视产业链上持续发力
  • 2025-11-24 06:09:10

     

    “地表最强特警”任山西公安厅副厅长,在反恐特警一线工作20年,曾负责北京奥运会安保任务
  • 2025-11-24 06:01:04

     

    美司法部长称将在30天内公布爱泼斯坦案卷宗
  • 2025-11-24 05:52:58

     

    日本政府将推动自卫队恢复使用“大佐”军衔,还计划增加防卫预算,解禁武器出口限制
  • 2025-11-24 05:44:52

     

    日媒:日本已向美国出口“爱国者”防空导弹,系自2023年解禁杀伤性武器出口后首例
  • 2025-11-24 05:36:46

     

    入住4年仍甲醛超标!福建卫视《现场》探访实录,解码智能门的健康升级路径
  • 2025-11-24 05:28:40

     

    [代运营托管]驼绒被,护腰护膝,视频号可跑纯女,护眼仪,激光治疗仪 注册60+,有量可排
  • 2025-11-24 05:20:33

     

    [代运营托管]痛风 耳鸣 甲状腺肠胃 疝气 肺结节痔疮 肺部 肝病 眼病 糖尿病血糖 咳喘
  • 2025-11-24 05:12:27

     

    信用卡逾期法院起诉会判多久?逾期多久会被电话催收?
  • 2025-11-24 05:04:21