考拉阅读完成2000万美元B轮融资,用AI技术自研中文分级阅读系统
雷锋网消息,近日,中文少儿分级阅读平台“考拉阅读”宣布完成2000万美金B轮融资。此次融资由GGV纪源资本和XVC共同领投,CMC华人文化产业基金跟投,原有投资人启明创投超额跟投。安可资本担任本轮融资独家财务顾问。
此次融资将主要用于考拉阅读原创“中文分级阅读系统ER Framework”的优化升级、优质阅读内容的生产聚合及市场规模的扩大。
考拉阅读创始人、CEO赵梓淳强调:“考拉阅读完成本轮融资后,一方面将继续加大在技术和研发上的投入,推进与高校等研究机构的进一步合作;另一方面则会持续加大市场投入,开展中学市场的推进,保持公司在中文分级阅读领域的绝对领先优势。”
另外,据考拉阅读透露,在近半年时间里,考拉阅读的日活用户增长近百倍,全产品矩阵日活接近百万,目前学生端次日次周及次月留存均高达70%以上,平均日停留时长约30分钟。
考拉阅读创立于2016年9月,据介绍,考拉阅读是全球首家提出“中文少儿分级阅读”概念的创业公司,依托自主研发,全球首创量化中文分级阅读系统 ER Framework,将中文文本按照难度进行量化分级,并匹配学生不同的阅读能力,进而提供个性化的阅读内容及语文学习解决方案。
雷锋网注:中文分级阅读系统 ER Framework
分级阅读的关键难点之一是“如何科学划分文本的难度等级”。不同于西方印欧语系繁复的格标记语法系统,汉语语法过于灵活、意合语义相当复杂等特点也让分级阅读的技术实现面临严峻挑战,要想完成规模化的解决方案只能依赖于现代科学技术的发展。
据介绍,考拉阅读历时两年,构建起全球最大的中文分级底层语料库,结合语言学,测量心理学以及深度神经网络为代表的前沿AI算法解决了这一难题。
据考拉阅读CTO任易介绍,考拉阅读的中文分级阅读标准(ER Framework )借鉴了国外的“词、句”的分析思想,基于ER Framework的分级阅读标准在「词」、「句」的基础上再加入「字」、「段」、「篇」三个维度,即从「字词句段篇」五大维度提取几十个特征来表达中文的难度,并实现段落、主题等的分析。如在「字」其下还有常用性、构形、组合性三个特征,「句」则有句法结构、语义逻辑、修辞表达和嵌套深度四个特征等等。
“因为中文的的句子相较英文要复杂得多,机器在理解中文的第一步就会遇到词性分析、语言模型上的困难。所以,有赖于现在流行的AI技术,如RNN、LSTM等深度学习技术,可以弥补中文在NLP上的缺失。”任易表示,“现在我们可以做到,将一个句子按照句法树、依赖关联等予以拆解,以分析每一个成分在句子中的比重,从而实现阅读文本的难度分级。”
去年此时,考拉阅读刚完成3000万的Pre-A轮融资。赵梓淳在接受 雷锋网 (公众号:雷锋网) 专访 的时候表示,他们一共处理了几百万字的非平衡语料库和几亿字的平衡语料库。
据悉,考拉阅读相关技术和研究成果已申请多项专利和国家重大课题项目,并获得北京大学、北京师范大学等权威机构专家认证,构建了从工具到到内容的完整闭环。
赵梓淳介绍,从技术方面来说,考拉阅读打造了一个顶尖的科学家团队,联合创始人任易博士毕业于北京大学,主攻数据挖掘方向,曾在 IBM Waston for Life Service 和微软亚洲研究院工作;首席数据科学家顾问赵俊博博士曾在 Facebook 从事研究工作,师从于机器学习顶尖学者、深度学习的奠基人之一 Yann LeCun 教授;首席阅读测评科学家魏久乔毕业于北京大学和新加坡国立大学应用语言学专业,主要研究方向为认知语言学及自然语言处理;首席语言学家李爱萍则为北京大学的应用语言学博士。
相关文章:
考拉阅读CEO赵梓淳:如何利用AI、语言学做出国内首个中文分级阅读系统?
前有“老大哥”,后有“新势力”,AI+教育江湖谁主沉浮?
最具成长性的AI+教育公司都有哪些特质?| CCF-GAIR 2018
CNNIC最新报告:K12英语在线教育火爆,AI+教育驱动产业升级
。