联手谷歌,学而思发起全球大模型数学解题竞赛 探索人工智能数学推理无人区

2023-10-11 09:39:07     来源:

数学一直被视为人工智能的试金石。当大语言模型突破其“先天性的缺陷”(如缺乏复杂推理能力、数值计算不够准确等),成功应对数学推理方面的挑战时,人工智能将进入新的纪元。如何提升大语言模型数学推理能力,突破语言模型的先天不足,成为当下全球人工智能领域关注的重点。

探索人工智能数学推理无人区

日前,由学而思牵头,联合谷歌、暨南大学等多家知名科技企业及高校的专家学者,依托智慧教育国家新一代人工智能开放创新平台,共同举办的AAAI2024 全球大模型数学推理竞赛,邀请全球人工智能专家、开发者以及爱好者一起用大模型自动解答中小学数学难题,旨在探索、解决人工智能在数学领域的挑战(具体比赛官网见:https://ai4ed.cc/competitions/aaai2024competition)。

1696987412936040121.jpg

AAAI(Association for the Advancement of Artificial Intelligence)由计算机科学和人工智能科学家Allen Newell、 Marvin Minsky 和John McCarthy等创办,是国际人工智能领域最为权威与重要的协会之一,AAAI会议被中国计算机学会(CCF)推荐为A类会议。

比赛期间,参赛者需使用大模型对给定的数学题目,生成推理步骤与答案。主办方将通过对比参赛者的模型输出答案与正确答案之间的准确率,来为参赛者进行排名。准确率最高的参赛者将会赢得此次比赛。

为了更充分地探究各类大模型的数学推理能力,此次比赛分为中文数学解题和英文数学解题两个赛道。由学而思提供比赛所用的中英文数据集——TAL-SAQ7K-CN、TAL-SAQ6K-EN。该数据集囊括了国内外多个中小学数学竞赛真题,题目格式均经过精心处理,每道题目都包含题目内容,题目难度等级和题目涉及到的从粗粒度到细粒度的知识点链条等字段。与之同时,TAL-SAQ7K-CN、TAL-SAQ6K-EN数据集中涉及到数学表达式已经处理成统一的文本模式 Latex。

比赛分为两个阶段,第一阶段即日起截止到12月31日,为公榜阶段。主办方事先随机在TAL-SAQ7K-CN和TAL-SAQ6K-EN中选出30%的数据,供参赛者进行大模型调试。第二阶段则从2024年1月1日到1月10日,为私榜阶段。期间,参赛者使用第一阶段调优过的大模型来解答数据集中剩余的70%题目。这一阶段的成绩将会作为比赛的最终成绩。

此外,主办方还为此次比赛提供了3个测评基准作为参考,即GPT-3.5,GPT-4以及好未来自研的数学大模型MathGPT在公榜上的表现,具体结果如下:

Track1:

1696987447390082646.jpg

Track2:

1696987462124025275.jpg

做好AI大模型时代的数学基础工作

大模型一直是近来年人工智能发展最热门的领域之一,ChatGPT的横空出世则让更多人看到了人工智能未来的方向。然而,现有的大语言模型在数学问题的解决、讲解、问答和推荐方面则存在明显不足,如解答数学问题经常出错,难以进行复杂运算。

作为本次全球大模型数学竞赛的发起者,学而思方面表示,希望能够通过这次大模型数学比赛,探索、解决现有的模型擅长文科而不擅长理科方面的推理和计算这一不足。学而思也在积极探索解决,如学而思MathGPT(官网链接:https://www.mathgpt.com/)结合大模型和计算引擎两者能力解决大模型在数学领域的三大挑战——解对题、讲清步骤、内容有趣生动。前者负责理解题目、分步解析,并在合适的步骤自行调用计算引擎,以此来提高正确率。基于海量名师解题过程的数据进行模型训练,模型的解题步骤可以更加清晰。再引入优秀老师的教学理念和方法,模型在解题趣味性上也能进一步提高。

以一道数列题为例,MathGPT给出的答案包含“分析”、“详解”、“点睛”三个部分,比通用大模型的粗略讲解方式更为细致,“分析”提供了题目的解题思路、思考方式,帮助用户更好地理解题目,“详解”则给出具体的计算方式和答案,最后“点睛”的环节,对题目的考点、难点、关键点进行提示,帮助用户回顾反思出题意图、举一反三。

1696987493905087286.jpg

作为国内首个数学领域千亿级大模型,MathGPT数学计算能力已覆盖小学、初中、高中阶段,题目类型涵盖计算题、应用题、代数题等多个类型,还可以针对题目进行追问。相关技术报告显示,在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学和Math401等6个公开数学评测集合的测试结果中,学而思MathGPT取得了多项测试的最高分数;在C-Eval的初高中的全科测试集合上,MathGPT也均有不错的表现。

此外,学而思也在GitHub、Hugging Face等技术社区开源了MathGPT的模型训练测试数据集——TAL-SCQ5K-EN/CN(各3K训练集和2K测试集),题目为单选形式,涉及小初高阶段数学内容,带有详细的解析步骤便于进行COT的训练。(GitHub开源地址:https://github.com/math-eval/TAL-SCQ5K;Hugging Face开源地址:https://huggingface.co/datasets/math-eval/TAL-SCQ5K)

作为智慧教育国家新一代人工智能开放创新平台承建单位,学而思一直积极参与推动我国人工智能技术发展与进步。随着大模型时代的到来,学而思希望用自身在数学和AI上的多年积累,面向全球范围内的数学爱好者和科研机构,做好AI大模型时代的数学基础工作。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

潜羽斩获2023品牌影响力发展论坛三大奖项
诠心臻爱 致胜未来 君乐宝奶粉粤湘桂强强联合发布会召开
卡萨帝冷暖机:一次跨越4000公里的挑战
十一长假圈粉无数,电竞达人、主播、Coser集聚广州黄埔大道东
四次“牵手”亚运会 361度品牌持续向上
传祺E9迎来上市以来首个破万销量
从CBD到绿茵场,传祺E9创领绿色健康生活
繁花与沃土:新能源产业崛起背后的创投力量
上海酒博会开幕在即,战略合作伙伴上海贵酒诠释“上海精神”
北大汇丰缘何深入解码跨越速运品牌战略?答案来了!
潮起亚细亚,智慧医疗守护杭州亚运会
岁在朝晖 行稳向阳 | 热烈庆祝朝阳永续成立20周年!
易点云保障亚运会IT设备不间断,助力数字亚运
拾光向新,逐愿致远丨拾愿集团参展中国厦门佛事用品(秋季)展览会
再拓多元业态布局 世茂服务正式进驻湖南张家界荷花国际机场
情怀or收益,新手投资人选品牌看重什么?
2023年中华医学会器官移植学年会精彩回顾!探寻cAMR治疗之道
聚焦重点人群 长生人寿广泛开展金融消费者权益保护教育宣传活动
400万宠主7000家门店,海洋之星是怎么做到的?
馨香一瓣寄沃土
黄轩倾情演绎《10:10》第二季,诠释高级制表宝珀的三大王牌系列
神州鲲泰携新品亮相华为全联接大会,共迎智算新时代
杭州亚运带动全民体育热潮,东方素养科学植物营养助力国民健康
海尔智慧楼宇助力亚洲最大体育赛事,引领数智低碳发展
东方启明星再创教培大联盟,开学季4亿决胜收官
大悦城北京大区商业全新双城品牌IP“城市有趣处”,引领双节消费热潮
促进了解监管要求 启迈QIMA携手新联Sunbond举行眼镜质量研讨会
众当下茶业系列茶品入市新闻发布会圆满举行
NOA落地潮 地平线高性价比方案脱颖而出
廖名宗律师:做环境法律师要有公益心