当前位置：首页 » 热门资讯

Stable Diffusion 3突然发布！与Sora同架构，一切都更逼真了

嘟买买 2024-02-24

105

从这组对比来看，可以说是高下立判——SD3无论是文字拼写还是质量、色彩协调性等方面都更胜一筹。

技术方面，目前，模型可选择的参数范围在800M到8B。

详细的技术报告还未公布，官方目前只透露主要结合了扩散型transformer架构以及flow matching。

前者实际上同Sora一样，附上的技术论文正是22年William Peebles同谢赛宁合写的DiT。

DiT首次将Transformer与扩散模型结合到了一起，相关论文被ICCV 2023录用为Oral论文。

在该研究中，研究者训练了潜在扩散模型，用对潜在 patch进行操作的 Transformer 替换常用的 U-Net 主干网络。他们通过以Gflops衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。

而后者flow matching同样也是来自22年，由Meta AI以及魏茨曼科学研究所的科学家完成。

他们提出了基于连续归一化流（CNFs）的生成模型新范式，以及flow matching的概念，这是一种基于回归固定条件概率路径的矢量场的免模拟CNFs的方法。结果发现使用带有扩散路径的flow matching，可以训练出来的模型更稳健和稳定。

不过最近看了这么多视频生成进展，也有网友表示：

你觉得呢？

One More Thing

除此之外，也就在前一天，他们的视频产品Stable Video正式开放公测。

基于SVD1.1（Stable Video Diffusion 1.1），人人可用。

主要支持文生视频和图生视频两个功能。