考拉阅读赵梓淳:做中国式分级阅读,让孩子看到适合他的文字
由 清科集团 、投资界、新芽主办的2018中国创业武林大会于2018年9月18-20日在北京 香格里拉 大酒店举行。本届大会设立包括人工智能、企业服务、高端制造、新零售、泛娱乐、金融科技、医疗科技与器械等在内的16场行业视听风暴,横跨3大热门领域、万家精品项目以及百余家参评机构与行业媒体的强力支持下,汇集各领域领先的知名投资人和创业者进行一年一度行业的灵思碰撞。
此外,国内首家投资维度的企业评选——V50风云榜、新芽榜也将现场决出年度榜单。该榜单已陪伴创业者十三年,被誉为“行业投资风向标”。
现场,考拉阅读创始人兼CEO赵梓淳发表了题为《AI赋能教育 给孩子适合的文字》的主题演讲,以下为演讲精华:
赵梓淳: 谢谢 主持人,考拉阅读成立于2016年9月份,现在也是一家非常年轻的公司。从事的方向是中文分级阅读的方向,大街上问一百个人可能有一个人会知道这个概念。我来解释一下分级阅读是什么,有点类似于我们去买鞋,我们需要知道孩子脚的大小才能买到一双匹配他的鞋。所以说其实孩子读书也是一样的道理,你给他读太难的东西读不懂,读太简单的东西学不到新的东西。怎么解决这个问题?西方世界提出了一套完整的解决方案,他们可以把人的阅读能力测出来,可以把英文的文本难度测出来,从而找到适合孩子成长的文字。
整个西方的分级阅读体系从提出来大概有几百年的时间,真的有量化的一套标准,现在也有了几十年的时间。其实应用的也非常广泛,现在能有90%以上的美国K12学校都在使用分级阅读的产品或者分级阅读图书馆,或者分级阅读图书。像在亚马逊上买书背后都有像美国的一些指数,或者记忆分级的数等等。所以其实由于这样广泛的使用还有各种各样的第三方研究机构去研究证明,确实分级阅读可以非常有效的提升孩子的阅读水平,达到1.5倍以上在同等的学习情况之下。
与此同时在中国分级阅读到底是什么样的现状?分级阅读出现之前西方孩子在看书的时候,他们每个人看的第一本书是《圣经》,中国的孩子第一本书是《四书五经》,很可能孩子都不知道在读什么。在西方有了一些量化的分级阅读标准之后,中国是一个什么样的现状?中国的现状基本上是一个按年级提炼书单,这个事情大家都知道会有一定的问题。我们从来不给孩子们买鞋的时候说买一双五岁的和八岁的鞋,各种学习都是有自己的差异在。每个孩子具体的差异非常大。
就因为现在落后分级阅读的剧变导致了一系列的问题,第一个问题就是其实内容生产上,没有一套分级阅读的标准去指挥,我们的内容生产者如何生产内容,基本上是凭心情了。我觉得写的书孩子能看懂,那我就写。我觉得这个书应该是八岁小孩看的,我就让八岁小孩去看。八岁的小孩在中关村二小上学的学生和在甘肃农村的孩子学习水平和阅读水平一定是不一样的。这样粗犷的分级方式导致了非常严重的后果,就是中国孩子不爱读书,太多的中国孩子一提起书就脑袋疼。家里买了特别多的书就是一本也不碰,其实阅读是一个非常美妙的体验,只要让孩子尝到其中的甜头。
就像我们打游戏一样,我是特别不喜欢打游戏的人,不是我自己有多大的自制力,而是我打游戏特别烂,一打就被别人虐,体会不到乐趣。孩子学习是一样的道理,你让孩子学习的过程中一直受挫就一定不想学习了,他都不想碰。分级阅读解决的就是这个问题,无论你这个孩子的年龄,找到你的真实实力,去给你推适合你的内容。
中国一直以来没有做出自己分级阅读的标准,根本原因在于中文确实太难了。不同于英欧语系的系统,中文的语法表达非常灵活,语义纷杂。例如中国的组成单位是汉族,有三千五百个常用汉字,英文的组成单位是二十多个字母,复杂构成的稀缺性导致分析中文的时候要用庞大的力量。英文其实是有天然的分词在的,中文的标点符号都是后来引进进来的。例如说量子效应,这个词到底怎么分,不会影响百度这样做搜索引擎的公司,会影响孩子们的理解难度。所以其实中文和英文由于语法结构的不同,由于语言的语系不同,导致两者的难度差别是巨大的。举个不恰当的例子,有点类似于国际象棋和围棋难度的类比,我们都知道国际象棋是很多年前的深蓝战胜了大师,深蓝是一个超级计算机。
怎么解决中文的问题,确实有这么大的难度,英文解决的方法是从词频和句长判断难度。中文讲实话并不能这么粗的分,例如非洲鬣狗这个词,鬣这个字在中文里出现的频率很低,很多孩子不知道怎么读。你如果单纯的因为它的词频比较低就认为它的词很难,在中文并不适用。英文的句子越长,句子的理解难度越高,需要记忆能力强,语法很复杂。中文很可能句子短很难理解,比如道阻且长。中英文的不同一样的解决问题,英文解决这个方法就是提取两个特征,然后用一些数学的表达,数学公式去解决问题。
考拉阅读阶段性的用五个维度提取上百个特征,然后录入系统,这上面写了一些阿尔法狗的类别,类似于阿尔法狗,我们精标了之后两千万字的非频率语意库,输出的是字词之间的结构,训练的是根植于网络,现在已经有了大量用户数据,通过网络真正得到文本的难度值。
所以说其实做中文的分级阅读就因为跟英文极大的差异,导致了极大的难度。今天考拉能做这个事情也得益于时代的发展,例如于阿尔法狗也得益于现在计算力的提高,一些深度学习的技术突破,才能有今天阿尔法狗的诞生,这是一样的道理。
另外是要测人,测中文的文本是可以测。怎么样把人的能力测出来,每个人都高考过,中国的语文考试,我们知道今年高考考了130分,明年考了110分,并不代表130分比110分能力差。中国的语文考试没有什么大量的探究,其实就像托福考试不一样,托福考试在座各位很多考过,托福考试这次你得90分,下次得92分,是可以比较的。怎么构建中国孩子的一个阅读能力的测量,其实也需要大量的人力跟物力。我们公司刚开始成立到现在,投入了大概几百万线下测孩子,现在从中国一线城市到四线城市大概测了七十万个孩子,做出了中国学生阅读能力最大的一份量表。这是我们的一个题目,这道题考察的是信息提取能力,这是一道样题。
接下来有了底层算法之后,该怎么构建我们的产品,这是考拉一些产品的截图。有点类似于像 今日头条 ,今日头条是根据你的阅读兴趣推你感兴趣的内容,考拉阅读是根据每个孩子的阅读能力,找到孩子阅读的范围,把相应的范围内的文本,无论是短文,还是中长文,还是书推荐给孩子,让孩子在社交化的分级阅读去学习。
公司成立了将近两年时间了,前一年半的时间基本上都在做刚才的事情,考拉也很少出来发声,因为我们其实做的还不够。今年3月份开始做大密度的推广,现在已经跟甘肃省、吉林省、山西省、河北省、山东省五省联动,用户增长的比较快,大概月活增长了两三百倍。每天每个小朋友在平台上消费大概十分钟读书或者听书。可能这个不太有直观的概念,从今年3月份到今年8月份,我们孩子一共在我们的平台上阅读了多少字,一共935亿字,相当于三百多个孩子一共读了十三万本的《红楼梦》。
大家一直在讲AI,AI最大的价值是能解决教育供给不公平的问题。我们测量的时候发现这样的问题非常严重。我们做一到四线城市阅读能力阅读采集的时候发现,中关村三年级的孩子可以达到五年级的阅读能力,但像甘肃省的镇,孩子基本上都是留守儿童,爸妈不在身边,爷爷奶奶带着,家里没有书,三年级的孩子平均阅读能力就是一年级上下。
其实阅读这件事情在我们看来是一件挺公平的事情,例如说现在有很多教育部门从业者在做网球培训,马术培训,还有编程等等。阅读每个人拿一本书就可以开展了,谁没有一本书呢。发现这个事件真的很触目惊心,差距真的很大。可以看到随着年级越高,这是我们的报告接下来可能会发布。年级越高一二线和乡村的差距越来越大,这么一件简单的事情,看起来很公平大家都可以完成的事情,差距非常大。
其实这也是为什么考拉会选择第一个切入省份就是甘肃省,因为甘肃省确实相对其他华东还有沿海的省份,他的教育差距会比较大。考拉全平台上现在大概有将近九十万个四线及以下的城市,真的让这些孩子可以每天消费大量的内容,每天学习。这些孩子每天来到考拉的平台上干吗?测试他的能力,根据他的阅读能力给他推相应适合的内容,让他爱上阅读,让他知道这个世界还有更大的世界,而不是自己的乡村,而不是自己的那一方天地。这是考拉的意义。
著名作家曾经说过这么一句话,教育应该是一束光,推开它应该满是阳光和鲜花。今天在座都是教育者和创投的人士,希望我们每个人通过自己的努力,无论从事AI教育还是互联网教育还是传统教育,每个人做到这一点真正能够给孩子带来阳光和鲜花,给孩子带来快乐,谢谢大家!
本文为投资界原创,原文:http://news.pedaily.cn/201809/435941.shtml