rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent是微软开源的先进的人工智能数学推理模型,在AIME24测试中达到80.6%的准确率,展现出强大的数学问题解决能力。模型具备科学推理能力,在GPQA-Diamond基准测试中达到60.9%的准确率。模型通过智能体强化学习进行训练,具备高效工具调用能力,支持根据问题需求自动调用合适工具,如代码执行工具,提升问题解决效率。模型训练过程采用多阶段强化学习,结合GRPO-RoC算法,优化工具使用,大幅降低成本。rStar2-Agent - 微软开源的高效AI推理模型

>>展开阅读