Skywork R1V-昆仑万维开源的多模态视觉推理模型

2025-03-19 0 264

2025年3月18日,昆仑万维正式开源了其首款多模态视觉思维链推理模型 Skywork R1V,标志着多模态思考新时代的到来。Skywork R1V 是一款专注于通过多步逻辑推理解决复杂视觉任务的模型,能够处理视觉逻辑推理、数学问题、科学现象分析等多种任务。

核心技术亮点

  • 文本推理能力的多模态高效迁移:通过视觉投影器,无需重新训练语言模型和视觉编码器,即可将文本推理能力高效迁移到视觉任务中,同时保留了强大的文本推理能力。
  • 多模态混合式训练:结合迭代监督微调(Iterative SFT)和强化学习(GRPO),分阶段对齐视觉和文本模态的表征,显著提升跨模态任务的表现。
  • 自适应长度思维链蒸馏:动态优化模型推理过程,避免“过度思考”,提升推理效率和质量。

性能表现

Skywork R1V 在多个权威基准测试中表现出色,例如在 MATH500 和 AIME 测试中分别取得了 94.0 和 72.0 的高分,明显领先于行业内众多主流模型。在视觉推理基准测试中,如 MMNU 和 MathVista,分别取得了 69 和 67.5 的优异成绩,与更大规模的闭源模型相当。

开源信息

Skywork R1V 的模型权重和技术报告已全面开源,方便研究人员和开发者进行二次开发和应用探索。开源链接如下:

  • Hugging Face:https://huggingface.co/Skywork/Skywork-R1V-38B
  • GitHub:https://github.com/SkyworkAI/Skywork-R1V
  • 技术报告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf

若非本站原创的文章,特别作如下声明:
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用,不代表任何监管机构的立场和观点。
不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息,均为转载,版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材,请版权所有者联系我们,我们将及时补上或者删除,共同建设自媒体信息平台,感谢你的支持!

AI老司机 AI行业动态 Skywork R1V-昆仑万维开源的多模态视觉推理模型 https://www.ailsj.cn/1043.html

相关文章

发表评论
暂无评论