智谱推出CogView4,首个支持生成汉字的开源文生图模型

2025-03-05 0 244

2025年3月4日,北京智谱华章科技有限公司宣布推出「智谱2025开源年」的第一个模型——CogView4,这是全球首个支持生成汉字的开源文生图模型。CogView4在DPG-Bench基准测试中综合评分排名第一,达到开源文生图模型的最先进水平(SOTA),并遵循Apache 2.0开源协议,为开发者和创意工作者提供了强大的工具。

CogView4的核心亮点

  • 性能卓越:CogView4具备强大的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,并能生成任意分辨率的图像。
  • 中文理解与生成:作为首个支持生成汉字的文生图模型,CogView4能够将中英文字符自然融入画面,满足广告、短视频等创意领域的需求。
  • 技术突破:模型采用二维旋转位置编码(2D RoPE)和多阶段训练策略,支持长文本提示词输入,显著提升了训练效率和创作自由度。
  • 开源与生态支持:CogView4遵循Apache 2.0协议,后续将增加ControlNet、ComfyUI等生态支持,并推出微调工具包。
  • CogView4的应用场景

    CogView4的推出为创意产业带来了新的机遇。它能够生成高质量的图像,适用于广告设计、短视频制作、艺术创作、教育等领域。例如,它可以将古诗文意境转化为视觉画面,或根据长故事生成四格漫画,极大地提升了创作效率和表现力。

    CogView4的开源信息

    该模型将于3月13日正式上线智谱清言平台(chatglm.cn),供用户使用。

    • 在线体验地址:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
    • CogView4的开源仓库地址为:https://github.com/THUDM/CogView4,
    • 模型仓库地址为:https://huggingface.co/THUDM/CogView4-6B。

    智谱表示,2025年将是其开源年,未来还将陆续开源基础模型、推理模型、多模态模型等,推动AI普惠化发展。

    若非本站原创的文章,特别作如下声明:
    本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用,不代表任何监管机构的立场和观点。
    不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
    凡注明为其他媒体来源的信息,均为转载,版权归版权所有人所有。
    如有未注明作者及出处的文章和资料等素材,请版权所有者联系我们,我们将及时补上或者删除,共同建设自媒体信息平台,感谢你的支持!

    AI老司机 AI行业动态 智谱推出CogView4,首个支持生成汉字的开源文生图模型 https://www.ailsj.cn/779.html

    相关文章

    发表评论
    暂无评论