120支队伍参与全球大模型数学解题竞赛,学而思联合谷歌等发起
2024年2月26日~27日,由智慧教育国家新一代人工智能开放创新平台、好未来(学而思)、谷歌、普林斯顿大学、暨南大学等全球领先 科技 公司、科研机构发起的2024AAAI大会智慧教育研讨会在加拿大温哥华召开。本次研讨会为期两天,以搭建创新与责任桥梁为主题,旨在探讨人工智能尤其是生成式人工智能在教育应用中的创新与责任伦理。
会议期间,AAAI2024 全球大模型数学解题竞赛正式发布比赛结果。这是全球首个围绕大模型数学能力的比赛,吸引了来自全球多个国家、地区的120多支队伍参加。历经4个多月的激烈竞争,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、数学解题推理等8支队伍最终胜出,赢得比赛。
聚焦生成式人工智能,深度探讨创新与责任
过去一年中,最热门的话题莫过于以大语言模型为代表的生成式人工智能。随着全球大模型热的流行,有关其创新应用与责任伦理等问题成为了关注的重点。为此,来自智慧教育国家新一代人工智能开放创新平台、好未来、谷歌、普林斯顿大学、暨南大学等全球领先科技公司和科研机构的专家学者、技术研究人员在AAAI2024期间发起“人工智能为教育”研讨会。
在为期两天的会议中,与会者带着各自的思考,通过论文、现场演讲、海报、全球数学推理竞赛等形式展示并听取来自不同群体的专家学者、技术研究人员的见解,深度探讨生成式人工智能的对教育的影响,未来与挑战。
针对大模型技术在教育领域的影响,有专家表示,教育者应该积极拥抱大模型而非抵制他们,禁止学生在完成作业时使用大模型就像20年前禁止 互联网 的应用一样徒劳。教育者应该重新设计作业,而非把精力花在发现作弊人员身上。更有专家表示,大模型的出现让人们看到了教育的未来——每个学生都有一个与之相匹配的家教,他们更懂得孩子的需求,也知道如何让孩子更为投入。针对大模型在教育中的幻觉、评估等难题,有专家表示,他们提出了一种自动的、基于迭代精化的测试用例生成方法,即使用LLM和symphony中的代码编译器,并在Code Workout数据集上对此方法进行测试,结果显示该方法可以生成准确度量学生知识水平的测试用例。
与之同时,与会人员还深度分享并讨论了教育场景中,负责任的人工智能应该具备哪些标准,应该设置哪些伦理要求。包括,在重要的教育决策场景如招生、预警系统、评分中,负责任的人工智能需要尽可能保证公平性、问责性、可解释性和透明性;负责任的人工智能在教育中的方法论贡献和影响,包括但不限于生成模型、预测模型、因果推断、强化学习和数据收集等。此外,有参会人员提出,随着AI尤其是生成式AI在教育中的影响越来越大,需要通过法规、流程等确保教育公平。
全球大模型数学解题竞赛落下帷幕,120支队伍同场竞技
为了提高大语言模型的数学和科学推理能力,中国领军科技公司好未来(学而思)、联合谷歌、暨南大学等多家知名科技企业及高校的专家学者,依托智慧教育国家新一代人工智能开放创新平台,于2023年10月启动AAAI2024 全球大模型数学解题竞赛。
会议期间,主办方还正式对外发布AAAI2024 全球大模型数学解题竞赛正式发布比赛结果。这是全球首个围绕大模型数学能力的比赛,要求参赛者用大模型对给定的数学题目,生成推理步骤与答案,吸引了来自全球多个国家、地区的120多支队伍参加。历经4个多月的激烈竞争,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、数学解题推理等8支队伍最终胜出,赢得比赛。
比赛分为两个阶段,第一阶段为公榜阶段,主办方事先随机在给定的数据集中选出30%的数据,供参赛者进行大模型调试。第二阶段则为私榜阶段,参赛者需使用第一阶段调优过的大模型来解答数据集中剩余的70%题目。主办方通过对比参赛者的模型输出答案与正确答案之间的准确率,来为参赛者进行排名。第二阶段的成绩将会作为比赛的最终成绩。
为了更好地探究各类大模型在不同语言上的数学能力,主办方将比赛设置中英文两个赛道。由好未来(学而思)提供比赛所用的中英文数据集——TAL-SAQ7K-CN、TAL-SAQ6K-EN,囊括了国内外多个中小学数学竞赛真题。考虑到可能会使用第三方大模型进行推理,会在一定程度上对比赛成绩产生影响。为了确保公平,主办方将不同赛道的结果按照是否调用第三方大模型进行分类,并根据最终的分数评选出各个不同类别的前三名。最终,在120多支参赛队伍中,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、数学解题推理8支队伍最终胜出。其中CPDP-ICST、cogbase、MathEducators三支队伍同时是中文、英文赛道前三。
(中文赛道调用第三方大模型比赛结果)
(中文赛道未调用第三方大模型比赛结果)
(英文赛道调用第三方大模型比赛结果)
(英文赛道未调用第三方大模型比赛结果)
一直以来,数学都被视为人工智能的试金石。目前,大语言模型在应对数学推理方面问题时仍然有很多挑战。智慧教育国家新一代人工智能开放创新平台相关负责人表示,教育作为大模型最先落地应用场景之一,当大模型数学能力得到突破时,将能够带来长久性甚至革命性的变革,能够让更多的人享有更多优质教育资源,真正实现大规模个性化教育。此次支持发起全球大模型数学解题能力竞赛,希望能够借助平台的力量,积极推动科技创新,让更多的人可以享受到科技进步的红利。
智慧教育国家新一代人工智能开放创新平台于2019年经国家科技部批准设立,由北京世纪好未来教育科技有限公司负责承建。平台立足教育行业,覆盖全国,从技术、解决方案和产业化服务三个方面,为教育教学单位、教育科技企业、教育从业者、人工智能研发人员等提供全场景、全过程、全周期的服务支持,促进教育产业智能化升级,构建“共生”“互生”“创生”的智慧教育多元化新生态。