Stable Diffusion 3 研究论文发布(附论文地址)

2025-02-20 0 776

AILSJ 3月5日最新消息,Stability AI 发布了关于其最新研究成果 Stable Diffusion 3 的研究论文。这篇论文深入探讨了 Stable Diffusion 3 的底层技术,这是一种文本到图像生成系统,据称在字体排版和提示遵循方面超越了现有的最先进系统,如 DALL·E 3、Midjourney v6 和 Ideogram v1。Stable Diffusion 3 采用了新的多模态扩散变换器(MMDiT)架构,该架构为图像和语言表示使用不同的权重集,从而提高了文本理解和拼写能力。

研究论文的主要要点包括:

  • 性能提升:Stable Diffusion 3 在视觉美学、提示遵循和字体排版方面,基于人类偏好评估,与竞争模型相比表现优异。
  • MMDiT架构:新架构允许图像和文本标记之间的信息流动,以改善输出的整体理解和排版。
  • 改进的Rectified Flows:通过重新加权,Stable Diffusion 3 在训练过程中采用了一种新的轨迹采样计划,提高了性能。
  • 可扩展性:MMDiT架构易于扩展到多种模态,如视频。
  • 灵活的文本编码器:在推理过程中移除内存密集型的 T5 文本编码器,可以显著降低 SD3 的内存需求,同时只有微小的性能损失。
  • 硬件兼容性:在消费级硬件上,最大的 SD3 模型(8B 参数)可以在 RTX 4090 的 24GB VRAM 中运行,并在 50 次采样步骤下,34 秒内生成 1024×1024 分辨率的图像。
  • 模型变体:初始发布将包括从 800M 到 8B 参数的多种 Stable Diffusion 3 模型变体,以进一步消除硬件障碍。
  • 这篇研究论文将在 arXiv 上提供,并且 Stability AI 邀请感兴趣的人注册等待列表,以参与 Stable Diffusion 3 的早期预览。

    • 论文地址:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
    • 官方博客:https://stability.ai/news/stable-diffusion-3-research-paper

    Stable Diffusion 3 详细介绍,点此了解。

    若非本站原创的文章,特别作如下声明:
    本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用,不代表任何监管机构的立场和观点。
    不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
    凡注明为其他媒体来源的信息,均为转载,版权归版权所有人所有。
    如有未注明作者及出处的文章和资料等素材,请版权所有者联系我们,我们将及时补上或者删除,共同建设自媒体信息平台,感谢你的支持!

    AI老司机 AI行业动态 Stable Diffusion 3 研究论文发布(附论文地址) https://www.ailsj.cn/372.html

    相关文章

    发表评论
    暂无评论