嘟来买,嘟便宜!
Ctrl + D 收藏本站
当前位置:首页 » 热门资讯

Stable Diffusion 3突然发布!与Sora同架构,一切都更逼真了

嘟买买 2024-02-24 77

从这组对比来看,可以说是高下立判——SD3无论是文字拼写还是质量、色彩协调性等方面都更胜一筹。

技术方面,目前,模型可选择的参数范围在800M到8B。

详细的技术报告还未公布,官方目前只透露主要结合了扩散型transformer架构以及flow matching

前者实际上同Sora一样,附上的技术论文正是22年William Peebles同谢赛宁合写的DiT。

DiT首次将Transformer与扩散模型结合到了一起,相关论文被ICCV 2023录用为Oral论文。

在该研究中,研究者训练了潜在扩散模型,用对潜在 patch进行操作的 Transformer 替换常用的 U-Net 主干网络。他们通过以Gflops衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。

而后者flow matching同样也是来自22年,由Meta AI以及魏茨曼科学研究所的科学家完成。

他们提出了基于连续归一化流(CNFs)的生成模型新范式,以及flow matching的概念,这是一种基于回归固定条件概率路径的矢量场的免模拟CNFs的方法。结果发现使用带有扩散路径的flow matching,可以训练出来的模型更稳健和稳定。

不过最近看了这么多视频生成进展,也有网友表示:

你觉得呢?

One More Thing

除此之外,也就在前一天,他们的视频产品Stable Video正式开放公测。

基于SVD1.1(Stable Video Diffusion 1.1),人人可用。

主要支持文生视频和图生视频两个功能。

相关推荐

评论 ( 0 )

扫码关注

qrcode

联系我们

回顶部