推理水平对标OpenAI o1!阿里云开源首个AI推理模型QwQ:数学、编程尤为出色
11月28日消息,推理推理今天,水平首个Q数色阿里云通义团队宣布推出并同步开源了全新的对标AI推理模型——QwQ-32B-Preview。
评测显示,开源预览版本的模型QwQ(Qwen with Questions)在科学推理能力上展现出研究生水平,尤其在数学和编程领域表现卓越,学编其整体推理能力可与OpenAI的程尤o1相媲美。
据介绍,为出QwQ是推理推理通义千问Qwen大模型最新推出的实验性研究模型,也是水平首个Q数色阿里云首个开源的AI推理模型。
阿里云通义千问团队研究发现,对标当模型有足够的开源时间思考、质疑和反思时,模型其对数学和编程的学编理解就会深化,基于此QwQ取得了解决复杂问题的程尤突破性进展。
在衡量科学问题解决能力的GPQA评测集中,QwQ达到了65.2%的准确率,显示出其研究生水平的科学推理能力;在AIME评测中,QwQ以50%的胜率证明了其解决数学问题的能力。
在MATH-500评测中,QwQ以90.6%的高分超越了o1-preview和o1-mini。在评估高难度代码生成的LiveCodeBench评测中,QwQ答对了一半的题目,在编程竞赛题场景中也有出色表现。
不仅如此,QwQ在面对复杂问题时,能够进行深度自省,质疑自身假设,并通过深思熟虑的自我对话,仔细审视其推理过程的每一步。
例如,在解决经典智力题“猜牌问题”时,QwQ通过梳理对话和推演,像个擅长思考的人一样,并最终得出正确答案。
目前,QwQ-32B-Preview已在魔搭社区和HuggingFace等平台上开源,发布短短几小时,引起全球开发者热情体验。
有开发者认为该模型“是完全没有预料到的疯狂的跃进”、“今年开源领域最重大的突破”、“让中国在开源大模型和AI推理上占据先机”。
不过通义团队也表示,虽然QwQ展现了强大的分析能力,但其仍是个供研究的实验型模型,存在不同语言的混合使用、偶有不恰当偏见、对专业领域问题不了解等局限,未来随着研究深入模型迭代,这些问题将逐步得到解决。
- ·雄鹿VS雷霆述评:字母哥和射手群两瓶毒药 一打四撑起无解基本盘
- ·这次陈列室很可能是致敬传奇
- ·机械师K600G键盘首发299元:弹床式Gasket结构、定制HIFI轴
- ·孔蒂:乌迪内斯一直注重身体对抗 桑切斯能发现别人看不到的地方
- ·勇士VS独行侠述评:库里和77自带被包夹BUFF 空位对轰效率比拼
- ·太拼了!伊沃比被萨拉赫爆射下体,捂着痛处解围后痛苦倒地
- ·最后4am针对性这么强的语音会被处罚吗?
- ·Shams:卡鲁索4年8100万美元续约雷霆
- ·周鸿祎:被车门夹伤的手成顽固伤 3个月没攀岩
- ·孔帕尼:今天没发挥出最佳水平 凯恩有望出战莱比锡
- ·4的营销真的宇宙无敌第一
- ·阿尔特塔:阿森纳下半场表现让我失望,那么控制局面却没进一个球
- ·吴柳芳账号再次被禁!抖音副总裁回应:处理分歧很大 要根据法律执行好
- ·[流言板]延续状态!哈登突破上篮打进,随后撤步3分造成格兰姆斯犯规
- ·石头居然长出了头发!真相比你想的更可怕
- ·戴奇:阿森纳尝试传中并期待某些事情发生,说明我们防守很稳固
- ·经典名作《风雨来记》登陆Steam 温馨风景游记冒险
- ·AMD显卡雄起!RX 9000、8000S、7050三大家族齐飞:又有中国特供
- ·9岁女孩长期吃头发胃里取出大块头发团:胃酸无法分解
- ·埃贝尔:拜仁的财务情况很出色,但我们不会在冬窗签凯恩的替补
- ·纳什球队没有1次夺冠赔率第一,甚至夺冠赔率第二都没有,最终4次打进西决,是不是说明纳什带队能力历史第一?
- ·[流言板]100万!普林斯:连续两年杯赛夺冠,没有人明白我现在的感受
- ·[流言板]势不可挡!太阳晒杜兰特赛季第7次单场得分25+,配文死神
- ·曼联旧将谈拉什福德:换别人早就离队了,都27岁了却还不成熟
- ·威少登上时尚杂志封面!净资产达3.75亿 入选福布斯黑人富豪前50
- ·斯洛特:不会为平局怪罪裁判,但感觉他没有做出对我们有利的判罚