首页 > 车圈原创 > 车圈原创 > VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

发布时间:2025-10-29 15:17:10来源: 13041198719

前脚谢赛宁刚宣告VAE在图像生成领域退役,后脚清华与快手可灵团队也带着无VAE潜在扩散模型SVG来了。

该方法实现了在训练效率上62倍、生成速度上35倍的提升。

图片

VAE为何被接连抛弃?主要还是因为语义纠缠的缺陷——语义特征都放在同一个潜空间,调一个数值就会“牵一发而动全身”,比如只想改变猫的颜色,结果体型、表情都跟着变。

和谢赛宁团队极简复用预训练编码器、改造DiT架构,专注于生成性能的RAE不同,SVG通过语义+细节双分支+分布对齐,实现了多任务通用。

图片

下面具体来看。

主动构建语义与细节融合的特征空间

在传统的「VAE+扩散模型」图像生成范式中,VAE的核心作用是将高分辨率图像压缩为低维的潜空间特征(可以理解为图像的简化代码),供后续扩散模型学习生成逻辑。

但这样会使不同类别、不同语义的图像特征会混乱地交织在一起,比如猫和狗的特征边界模糊不清等。

直接导致两个问题:

  • 一是扩散模型训练效率极低,需要数百万步迭代才能勉强理清特征逻辑;

  • 二是生成过程繁琐,往往需要经过几十甚至上百步采样才能输出清晰图像。

并且,生成的特征空间用途单一,除了图像生成,几乎无法适配图像识别、语义分割等其他视觉任务。

面对VAE的困境,谢赛宁团队的RAE技术选择了极致聚焦生成的思路。直接复用DINOv2、MAE等成熟的预训练编码器,不额外修改编码器结构,仅通过优化解码器来还原图像细节,同时针对性地改造扩散模型架构。

最终实现了生成效率与质量的跨越式提升,简单说就是把重心全放在了“把图生成得又快又好”上。

而清华&快手可灵团队的SVG技术,则走了兼顾生成与多任务通用的路线,核心差异就在于对特征空间的构建逻辑上。

RAE是直接复用预训练特征,SVG 则是主动构建语义与细节融合的特征空间。

图片

车圈原创更多>>

新款理想L6完成工信部申报!全能家用增程SUV值得入手吗? 雅马哈劲战125特别版引入赛道元素强化热血感 奥迪Q9内饰发布:比Q7更大 这台“9系旗舰”到底值不值得等? 全新沃尔沃XC60谍照曝光,将于2027年正式亮相 五菱星光L实车正式曝光!中大型家用SUV登场,大六座来了吗? 国轩高科7款新品:固态、钠电、储能齐发 预售39.98万元,浅析小鹏GX定价合不合理 昊铂S600预售20.99万起,4.3秒破百,双腔空悬+四驱 余承东官宣:200万级尊界S800 Grand Design典藏大观,定档6月 曝某传统合资头部豪华汽车品牌开始裁员 占比约8% 路特斯Emira将弃用现有梅赛德斯-AMG与丰田V6引擎! 4月香港MPV市场:中国品牌霸榜,埃尔法跌出前五,释放了什么信号 ­­智界V9上市发布,售价38.98万-51.98万元,重塑MPV高端市场格局 又一国产猎装车来袭,方程豹方程S GT路透图曝光,或第三季度上市! 星途ET5 EXEED OS 3.7.0 OTA重磅推送,全维安全进阶 变大的Smart:精致小车扛不住中国市场的铁拳 智界V9上市发布,售价38.98万-51.98万元,重塑MPV高端市场格局 从DTM经典到“夜光”艺术车,HWA Evo.R成为纽博格林24小时焦点 “锁电”辟谣之外:新能源车最该补的是信任课 大型SUV市场“神仙打架”4月销量榜 1款销量过万 极氪9X第二 绿紫新色炸场!一汽悦意08以轿跑之姿乱入,可谓颜值天花板 2026款海鸥正式上市 比亚迪把激光雷达下放到A00级 「 爱车空间 」大众品牌全球首款支持城市NOA的轿车来了! 1.5T+双电机 凯迪拉克XT5插混版申报图曝光 对标奔驰EQS 雷克萨斯TZ正式发布 破局存量竞争 比亚迪4月销量背后的技术加速度 2026款海鸥6.99万起!比亚迪把激光雷达塞进A00级小车 奥迪 E7X 开启预售 28.98 万起,德系豪华纯电添新将 传统与新贵的分水岭之间,奥迪E7X为豪华纯电定了新基调? 德系底子+城市NOA,上汽大众ID. ERA 5S工信部信息公布