正文内容 评论(0

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误
2025-01-16 14:47:42  出处:快科技 作者:秋白 编辑:秋白     评论(0)点击可以复制本篇文章的标题和链接对文章内容进行纠错

快科技1月16日消息,今日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。

据悉,在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时,通义团队还开源了首个步骤级的评估标准 ProcessBench,此项评估标准填补了大模型推理过程错误评估的空白。

阿里云通义开源最强过程奖励PRM模型  7B尺寸比GPT-4o更能发现推理错误

据了解,为更好衡量模型识别数学推理中错误步骤的能力,通义团队提出的全新评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。

阿里云通义开源最强过程奖励PRM模型  7B尺寸比GPT-4o更能发现推理错误

此外,在ProcessBench上对错误步骤的识别能力的评估中,72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势,7B版本的PRM模型不但超越同尺寸开源PRM模型,甚至超越了闭源GPT-4o-0806。这证明了过程奖励模型(PRM)能够显著提高推理的可靠性,为未来开发推理过程监督技术开辟了新的途径。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:秋白

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...