我要投稿

DianJin-R1 – 阿里云通义点金联合苏大推出的金融推理大模型

AI老司机 AI行业动态

2025-05-05 0 808

DianJin-R1是什么

DianJin-R1是阿里云团队与苏州大学联合推出的金融领域推理增强大模型，专为金融任务设计，融合了先进的技术和全面的数据支持。模型通过推理增强监督和强化学习提升金融推理任务的表现，核心是DianJin-R1-Data数据集，整合了CFLUE、FinQA和中国合规检查（CCC）数据集，涵盖多样化的金融推理场景。 DianJin-R1包括DianJin-R1-7B和DianJin-R1-32B两个版本，均通过监督微调（SFT）和强化学习（RL）两阶段优化，采用组相对策略优化（GRPO）方法，结合双重奖励信号以优化推理质量。在金融领域的CFLUE、FinQA、CCC等基准测试中，DianJin-R1显著优于非推理模型，在CCC数据集上，单次调用推理模型的表现超过多代理系统。

DianJin-R1的主要功能

金融推理增强：通过推理增强监督和强化学习，提升金融任务的推理能力。在金融测试集 CFLUE、FinQA 和 CCC 上，DianJin-R1 的表现优于基础模型。
高质量数据集支持：基于 DianJin-R1-Data 数据集构建，整合了 CFLUE、FinQA 和 CCC 数据集，覆盖多种金融推理场景。
结构化推理输出：模型能以结构化格式生成推理步骤和最终答案，方便理解和应用。
强化学习优化：采用 Group Relative Policy Optimization（GRPO）算法，结合格式奖励和准确性奖励，优化推理质量。
高效推理能力：在实际应用中，DianJin-R1 的单次调用推理模型表现与多代理系统相当甚至更优，且计算成本更低。

DianJin-R1的技术原理

高质量数据集构建：DianJin-R1 的核心是 DianJin-R1-Data 数据集，数据集整合了 CFLUE、FinQA 和专有的中国合规检查（CCC）数据集。涵盖了多样化的金融推理场景，经过验证的注释，确保数据的高质量和领域相关性。
结构化监督微调（SFT）：模型通过监督微调（SFT）阶段进行训练，使用结构化格式生成推理步骤和最终答案。具体来说，每个训练实例包括一个问题、推理路径（格式化为 ...）和答案（格式化为 ...）。模型通过学习这些结构化的输入和输出，生成连贯的推理步骤和正确的答案。
强化学习优化：在监督微调的基础上，DianJin-R1 进一步应用了群体相对策略优化（GRPO）算法进行强化学习。该算法引入了双重奖励信号：格式奖励（鼓励生成结构化的输出）和准确性奖励（奖励正确答案），进一步提升推理质量。

DianJin-R1的项目地址

Github仓库：https://github.com/aliyun/qwen-dianjin
HuggingFace模型库：https://huggingface.co/DianJin
arXiv技术论文：https://arxiv.org/pdf/2504.15716

DianJin-R1的应用场景

金融风险评估与合规检查：DianJin-R1 能高效处理复杂的金融合规任务，例如在 CCC（中国合规检查）数据集上的应用中，模型通过单次调用即可实现与多代理系统相当甚至更优的性能，显著降低了计算成本。
金融问答与客户服务：在 FinQA 数据集的测试中，DianJin-R1 展现了强大的金融问答能力，能为客户提供准确的金融信息和解决方案。有助于提升金融机构的客户服务质量和效率。
金融考试与教育：DianJin-R1 在 CFLUE 数据集上的表现尤为突出，准确率从 77.95% 提升至 86.74%。表明模型可以用于金融考试的辅助训练和教育场景，帮助考生更好地理解和掌握金融知识。
复杂金融任务的推理与决策：DianJin-R1 通过结构化推理和强化学习优化，能处理复杂的金融任务，如财务报表分析、投资决策等。

收藏点赞 (0)

若非本站原创的文章，特别作如下声明：
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用，不代表任何监管机构的立场和观点。
不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息，均为转载，版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材，请版权所有者联系我们，我们将及时补上或者删除，共同建设自媒体信息平台，感谢你的支持！

AI老司机 AI行业动态 DianJin-R1 – 阿里云通义点金联合苏大推出的金融推理大模型 https://www.ailsj.cn/1585.html