欧美国家知识发现与数据挖掘过程模型研究及其教育领域应用启示
摘要: 教育信息化、大数据战略已成为一种国家意志,通过数据挖掘发现新知识或更新现有知识是计算机信息处理最理想的产品之一。基于明确知识发现与数据挖掘(Knowledge Discovery and Data Mining,KDDM)的领域范畴,在回顾与综合分析欧美国家KDDM过程模型研究的基础之上,把KDDM过程模型概括为学科交叉性、应用多样性、本质探索性、过程迭代性、目标与结果不确定性等五个主要特征,从中获得在教育领域应用与实施KDDM工程实践的四点启示,并对KDDM在教育领域中的应用提出四点建议。
关键词: 知识发现与数据挖掘;KDDM;过程模型;知识创造;教育应用;学习分析
一、引言
教育信息化、大数据战略已成为一种国家意志,数据是基础性资源也是重要生产力[1],大数据是未来最大的能源[2],通过数据挖掘发现新知识或更新现有知识是计算机信息处理最理想的产品之一。当前,在云计算、 大数据技术 的快速发展与推动下,知识发现与数据挖掘(Knowledge Discovery and Data Mining,KDDM)得到了世界各国学术界与工业界前所未有的关注与重视。如何利用“互联网+”与大数据造福社会是当今世界的重大命题,也是教育领域的重大命题。教育数据挖掘、学习分析、数据可视化等将对教育领域产生深远影响。人类社会目前可用的数据中仅有0.5%得到分析与挖掘[3],如何把原始数据有效转换成有价值的信息也是当今信息世界的难题。
KDDM过程模型研究起源于美国,发展于欧美,它概括了数据挖掘从最初目标确定到最终知识发现与部署的一系列基本步骤,是指导KDDM实践的行动指南[4]。了解欧美KDDM过程模型研究,可让我们更清晰地把握它的来龙去脉,进而使其得到更好的应用与发展。本研究基于历史的视角,回顾欧美KDDM过程模型研究,概括其主要特征,获得在教育领域应用与实施KDDM实践的启示,以促进我国教育数据挖掘、知识创造、学习分析、个性化学习等方法论的发展,以及教育信息化水平的提升。
二、欧美国家知识发现与数据挖掘过程模型研究回顾
(一)知识发现与数据挖掘领域的确定
数据挖掘(Data Mining,DM)、知识发现(Knowledge Discovery,KD)、数据库知识发现(Knowledge Discovery in Databases,KDD)、知识发现与数据挖掘(KDDM)这四个术语的使用常常使人感到混乱。在欧美许多文献中,除了认为DM是KD的一个步骤之外,DM与KD也常被当作同义词使用。从定义上分析,它们四者之间的关系如图1所示。
DM常指为进行数据分析而进行的算法设计,或从数据中提取特殊分类模式的过程。KD是寻找某一个领域新知识的过程,每一次知识发现过程通常会应用某种特定方法或者模式来完成其特定的目标任务,KD包括一系列步骤,DM是其步骤之一。KDD是应用数据库寻找新知识的过程,是指在数据中识别有效、新奇、具有应用潜力、最终能被理解的模式的非常过程[5];尽管KDD强调数据库是其重要数据源,但它也被普及到非数据库类数据的知识发现过程中。KDDM泛指在所有数据中发现知识的过程,它被认为是概括知识发现、数据挖掘过程最合适的称法[6]。在欧美文献中,它还有一种称法为数据挖掘与知识发现(Data Mining and Knowledge Discovery,DM&KD)。鉴于上述术语的异同及定义,本研究泛指DM、KD、KDD、KDDM、DM9KD等所有领域。KDDM涉及知识发现的全部过程,包括如何进行数据存储、数据访问、开发可用于大数据分析的有效与可扩展算法,如何进行解释与可视化数据挖掘结果、如何建模与实现人机交互等等。
(二)欧美知识发现与数据挖掘过程模型研究回顾
20世纪80年代末、90年代初期,美国许多学者研究发现,数据挖掘方法常常被盲目地使用在数据输入过程中,在统计学文献中这种现象被称为“数据挖泥”(即Data dredging),其结果往往导致毫无意义的结果输出与知识发现。一些KDDM大型工程项目需要大型团队的协同工作、周详的计划与日程安排,但对于大部分工程管理专家来说,KDDM是一个陌生的领域。人们往往不愿意花费大量时间与资源去探寻知识,而宁愿依赖领域专家、把他们当作信息之源,导致大量有价值的数据无法得到充分利用。在这种背景之下,学术界与工业界广泛认为,需要建立定义明确、标准统一的KDDM过程模型,用来描述实施KDDM工程时所遵循的一系列操作步骤,以指导用户在有效控制成本的情况下,制定工程计划、选用合适的技术去解决KDDM工程实践中遇见的问题。
KDDM过程模型起源于1989年美国的第一次“数据库知识发现研讨会”[7],参加研讨会的领域专家们深刻认识到:知识是以数据为驱动的发现过程的最终产品,并就开发一套能为数据分析实践提供可视化、可感知工具的交互式系统达成共识。以此次研讨会为契机,过程模型思想在KDDM领域迭代地、逐渐地发展起来。
1996年出版的《知识发现与数据挖掘进展》 (Advances in Knowledge Discovery and Data Mining)一书阐述了KDDM过程模型基础框架,如图2所示。此模型是研究人员与工业数据分析者相互沟通与合作的结果,它关注的不是特定数据挖掘技术,而是旨在为复杂与高度迭代的KDDM过程提供支持,重点关注知识发现中那些紧密涉及数据分析者活动的主要步骤。
《知识发现与数据挖掘进展》提出了两种类型的过程模型,即以人为中心的模型、以数据为中心的模型。以人为中心的模型强调在KDDM过程中数据分析者之间的相互作用;它包含一系列复杂相互作用的知识密集型任务,随着时间的推移,人与大型数据之间可能会得到多样化的、异质工具的支持[9];主要包括三个步骤:模式选择与执行(子步骤包括数据分割、模式选择、参数选择)、 数据分析 (子步骤包括模式确定、模式评估、模式改进)、生成结果(子步骤包括生成报告、部署并监控把生成结果应用于问题解决的实践领域)。以数据为中心的模型强调数据分析任务的相互作用与迭代,它以数据为中心,由一系列事先设定的、执行并控制数据与信息分析的固定步骤组成,人的主要作用在数据挖掘任务的指导下,监控与确保每一个步骤的目标能够达成。尽管以上两类模型所体现出对模型的基本结构的理解不同,但是,它们均认为KDDM过程模型各种要素之间高度相互影响与复杂,在承认数据挖掘只是KDDM整个过程中的一小步骤的同时,认为在KDDM过程中应该使用或至少考虑使用数据挖掘技术。以数据为中心的模型逐渐成为KDDM过程模型的主流,表1中的过程模型均属于以数据为中心的模型。
1996年,法亚德(Fayyad)等人公开发表了第一个KDDM过程模型,此后依次有卡贝纳(Cabena)、安纳德(Anand)、SPSS等四家公司(联合提出CRISP-DM,即跨行业数据挖掘过程标准),西欧斯(KJCios)等人或机构先后提出包含不同步骤数量的过程模型,此外,能在国际文献上查阅到的欧美KDDM过程模型还有八种,具体内容如表1所示。
表1中的前五种过程模型在KDDM学术研究、工业应用领域影响较大。法亚德等人在提出的9步骤过程模型的同时,还给予DM、KDD明确定义,所以该模式被引用次数最高。2014年,世界知名数据科学网站KDnuggets的一份有关数据分析、数据挖掘、数据科学主要应用方法调查结果显示[23],CRISP-DM应用率占43%、其他依次为:用户自己设定的模型(My Own)占27.5%、SEMMA占8.5%、其他及不特定领域(Other and not domain-specific)占8.0%、与KDD process占7.5%。CRISP-DM规范、具体、文档易读、并聚焦于工业应用描述,它由阶段、一般任务、具体任务、进程实例等四个层次构成分层式的参考模型[24],其六大阶段的每个阶段均有明确的一般任务和其输出;且CRISP-DM由SPSS等四家公司联合提出,在工业项目等领域实际应用广泛,它提高了使用者对商业的理解并让他们在商业决策中取得了实质性的成功。因此,CRISP-DM目前已经成为KDDM过程模型实际上的标准。
从KDDM过程模型的发展历程看来,在其研究取向多元并存、发展竞争与融合过程中,逐渐确定了以数据为中心与CRISP-DM参考模型的主流地位,并出现了法亚德等学术代表人物。KDDM过程模型起源并发展于美国,对世界其他国家也产生巨大影响。在表1中的各种模型提出时间集中在1996年至2006年期间,而最近十年,没有出现新的具有影响力的过程模型。从KDnuggets的调查结果上看,CRISP-DM与用户自己设定的模型的应用率合计占70.5%,一方面说明CRISP-DM(占43%)已经得到了广泛的认可;另一方面也说明,数据挖掘任务依赖于用户(占27.5%)的最终目的、背景与兴趣,用户在参考各种过程模型的基础之上,会根据用户自己的实际需要安排数据挖掘任务与步骤。在表1中各种模式的步骤数量范围为4至9,其中步骤数量为“6”的模型最多,尽管在步骤划分与命名上存在差别,但它们的数据任务大体上包括领域理解、数据理解、数据预处理、 数据挖掘 、评估结果、应用结果等6个步骤,这与加拿大学者库尔干总结的过程模型颇为相似。
近三年来,云计算、大数据技术的出现与发展使充分利用海量数据的价值成为可能。KDDM未来发展趋势是在各种数据挖掘软件或系统中实现互操作与相互兼容,无需最终用户在各种数据,挖掘方法中进行人工数据转化与数据控制,为没有任何背景知识的最终用户提供自动或者实现一些的半自动化服务;这一目标的实现需要更科学、更规范、适应性更强的新一代KDDM过程模型。
三、欧美知识发现与数据挖掘过程模型特征分析
(一)学科交叉性
KDDM是一个涉及人工智能、数据管理、数据可视化、统计学、机器学习、模式识别等领域的交叉边缘学科。在知识体系、技术基础、实践应用、研究人员方面,这些因素均与这些领域存在千丝万缕的联系;KD、DM、KDD、KDDM等在定义与应用领域存在交叉、重叠;各种KDDM过程模型其侧重点不同,或侧重数据挖掘,或侧重知识发现,或侧重数据库数据或侧重所有类型数据,或侧重数据分析与数据科学、人工智能与机器学习。
(二)应用多样性
KDDM过程模型的应用多样性主要体现在以下五个方面:一是两大类别下的多种模型,KDDM过程模型分成以人为中心与以数据为中心的两类模型,以数据中心的模型在竞合中确定了主流地位,在表1中列出的模型就有13种,步骤中的数据挖掘任务相似中存在差异;二是应用领域分成学术、工业两大类型,每个领域又包括客户关系与消费者分析、银行与保险、卫生保健、广告、教育、能源、制造业、社会网络与社会媒体、投资与股票、计算机软件、生物技术、政府与军事、安全与反恐等众多类别;三是研究人员来自高等学校与工业界的人工智能、数据科学、统计学、机器学习等多个领域;四是挖掘数据的多样性,如,表格、时间、文本、交易、推特、对象符号、网络内容、可扩展标记语言XML、图像、视频与声音等数据;五是执行数据任务过程中各种对象之间交互的多样性,例如,数据与数据之间、人与数据之间、人与人之间存在多种复杂的交互、相互影响,导致同一个数据集或者数据库,由于用户背景目的、背景与兴趣不一样,往往会发现出不同的结果。
(三)本质探索性
数据是计算机加工的对象与信息的载体,它是指所有能输入到计算机并被计算机程序处理的各种介质的总称,如,数字、字母、符号、文字、文件、图像、视频、音频等,数据作为一种没有组织的事实,其本身是没有价值的。信息基于数据,它是对数据的加工、处理、组织,对决策制定具有潜在的价值。知识以信息为基础,通过对信息的归纳、演绎,从定量到定性转化后得到的、抽象的、逻辑的、能够被人理解与认识的东西。智慧是知识层次中的最高级形式,它以知识为根基,通过个人运用能力、实践能力、洞察力与创造力以及综合判断来创造价值,它是知识的有效应用。数据、信息、知识、智慧的关系呈金字塔结构,等级越高,容量越小,价值越高,如图3所示。
那些暂时被遗弃在阴影中、具有巨大潜在价值的数据被称为“黑色数据”[25],要挖掘这些“黑色数据”的价值,需要实现从数据到信息、从信息到知识、从知识到智慧的转变,就如同沙里掘金一样,需要数据挖掘团队大量的探索性行动,反复地试验与不断地试错,回答与解决许多探究性问题。例如,在数据理解阶段,如何确保所选数据集、数据参数的全面性与科学性?是否存在“黑色数据”丢失与遗漏的情况?在数据准备、确认数据挖掘技术阶段,需要确定哪种数据挖掘技术与算法最适合于当前的数据挖掘任务?在结果评估阶段,数据挖掘团队需要对发现结果进行可视化与解释,如何保证给出的解释是科学的、合理的?简而言之,KDDM的目标是探寻与发现隐藏在数据中的、事先未知的、有用的知识与模式,它的目标从一开始就决定了KDDM过程模型固有的、本质的探索性特征。
(四)过程迭代性
所有过程模型均由按序、具有复杂反馈回路或迭代执行、非单向直线的多个步骤构成。下一个步骤是在上一个步骤顺利完成的基础上执行,它的输入数据就是上一个步骤的输出结果。以图4的CRISP-DM参考模型为例,从其内部范围上看,商业理解与数据理解、数据准备与建模之间存在迭代,评估到商业理解反馈回路;从其整体范围上看,整个过程就是一个迭代环。当模型中的某一个步骤的输出结果无法达到预期目标或运行失败,则需要撤回或拒绝执行当前步骤,重新执行上一个或上上一个步骤,或者重新制定项目方案,以创新性执行KDDM的各项任务,直到发现有效、新奇、具有应用潜力、能够被人理解的知识,并达到预期目标为止。
(五)目标与结果不确定性
KDDM过程模型的本质探索性、过程迭代性,使KDDM从目标到结果充满多种不确定因素;即使完全按照KDDM过程模型来执行项目任务,也无法确保所付出的努力会有应有的回报。KDDM挖掘的对象是隐藏在数据中的、事先未知的知识与模式,数据挖掘团队必须回答与项目结果息息相关的许多不确定问题。例如,如何选择正确、有效、最佳的总体目标?如何保证好的目标没有被丢失?所挖掘的数据中是否存在有用的知识等等。KDDM所挖掘的数据在存储时通常没有,也很难考虑将来可能挖掘需要,因此所挖掘数据存在噪音与丢失是普遍存在的。无用输入导致无用输出;错误的、缺失的、多余的、不一致的挖掘对象数据,不合适的数据挖掘技术与算法,将会挖掘出错误的结论或者出现过度拟合现象。因此,忽视或者不科学的总体目标,可能会导致所有数据挖掘的努力成为“对一个错误的问题做出了正确的回答”。
四、欧美知识发现与数据挖掘过程模型应用启示:以教育领域应用为例
欧美KDDM过程模型在商业、教育、体育、政府公共服务[27]、临床诊断[28]、医疗保健[29]等多个领域得到了广泛应用。纵观欧美KDDM过程模型及其特征,以教育领域应用为例,可从中获得四点启示。
(一)冷静与客观地看待KDDM
尽管存在许多经典的KDDM应用的成功案例,但由于KDDM过程模型的本质探究性、过程迭代性、目标与结果不确定性,使得KDDM项目出现了连续的工程项目拖延、低效率、项目失败率过高、挖掘结果没有应用价值或者难以满足最终用户期望等诸多问题。KDDM项目的执行需要大量的数据与资源、细致的计划、批判性分析与广泛人为干涉与主观判断,它所采用的算法或多或少均存在一定的缺陷与不足;当前,KDDM所采用的数据是否适用于未来的数据,都有待验证。因此,一味迷信这些看似科学的发现知识,将会给实际应用带来误导与重大后果,尤其是对哪些不了解KDDM过程特征的最终用户来说,更容易被这种科学假象所迷惑。
在教育领域,教育数据挖掘的结果与所选数据、教育与社会环境、对象年龄等息息相关。而且,当前教育领域还存在“数据不足”[30]、个人隐私与安全、数据权限与共享机制、技术层面、数据会随着时间与客观环境的改变而发生变化等诸多因素。所以,用户在教育领域中用知识发现与教育数据挖掘进行学习分析、学习诊断、个性化学习建议、教育决策时应该慎重、谨慎。图灵测试的结果表明,人脑还是比计算机聪明,但计算机在海量运算、数据处理、循环与运算等多方面的精确度、速度、效率等远远高于人类。因此,研究者与实践者应该冷静与客观看待KDDM。
(二)领域专家、技术专家与用户团队协同工作
根据KDDM的交叉性、多样性、探索性、不确定性,一个合理的KDDM团队至少由相关领域专家、高水平技术专家、用户组成。有效的评估可以减少当前发现知识或模式无法满足未来数据的风险,领域专家在整个项目过程中将承担项目仲裁者的重任,他们可使项目目标更明确、数据选择更科学、结果评估与解释更可靠。高水平技术专家可以保证数据转换、数据挖掘技术与算法尽可能达到最适合的状态,从而使所发现知识更接近客观事实。用户是知识发现的最终用户与实际拥有者,没有需要就无法产生价值,只有满足用户需要的项目称得上有价值的项目,确定项目目标与评价发现结果都需要用户的深度参与。
在教育领域,一个知识发现与教育数据挖掘项目应根据实际需要,由学科专家、教师、数据挖掘技术专家、学习者、家长等成员组成项目团队,并用软件工程的方法与思想实施项目实践。由于教育决策深受社会政治文化影响,教育效果检验需要跨越很长的时空,人的时间与教育关键期耽误不起,同时把人作为实验对象也存在道德问题。因此,一项革命性教育决策必须建立在大量论证的基础之上,决不能仅仅根据几项教育数据挖掘项目的发现结果就轻率做出决策。在进行教育数据挖掘、学习分析与诊断、监控学习、促进终身学习与个性化学习时,也应该通过团队协同工作的方式,综合考虑影响教育决策的各种相关因素。
(三)以系统方法来实施KDDM工程
系统方法是教育技术核心基础理论之一,是用以指导人们研究和处理科学技术问题的一种科学方法。现有的KDDM过程模型均不包含工程管理、质量控制等相关任务。KDDM是一项系统工程,应该把KDDM涉及的所有对象当作是一个整体,系统分析各要素及其相互关系、建立模型、选择最优问题解决方案并重新综合成整体;同时,还要动态地对待KDDM工程,减少KDDM过程的不确定性、降低风险与成本、提高知识发现的质量。以体育领域为例,NBA(即美国男子职业篮球联盟)休斯顿火箭队的总经理莫雷(Daryl Morey)是一位从来没有玩过篮球的数据分析专家,他基于数据即魔球理论(Money-ball)作出球队组建决策,通过信息收集与数据分析进行球队合同风险与薪资控制,一些其他球队不受重用或选秀第二轮球员常常在他手上变废为宝。
2014-2015赛季,火箭队成功地进入西部赛区决赛,但在2015-2016赛季,几乎是同样阵容的火箭队战绩惨淡,赛季开始还不到一个月,球队主教练就被解雇。球场上赢球不是靠数据分析而是靠球员,当球员的心身状态发生了消极变化后,输球是必然的结果。因此,KDDM工程与应用必须注重整体、动态地看待与解决出现的问题。
系统方法应用于KDDM工程已经得到专家们的肯定。2009年,西班牙学者奥斯卡•马班(Oscar Marban)等结合软件工程思想提出了一种包含组织、项目管理、开发、整合等四大过程的数据挖掘工程过程模型,其中知识发现(KDD)是“开发过程”的核心[31]。针对现有过程模型存在的工具支持短缺、分裂式设计、缺乏综合观点的缺陷[32],美国学者玛莎•苏马娜(Sumana Sharma)于2012年提出了综合型知识发现与数据挖掘过程模型(Integrated Knowledge Discovery and Data Mining process model,IKDDM)的思想。
在教育领域,应该在综合兼顾KDDM的安全隐私、效率与效益、科学准确、可操作性、知识产权等前提下,用系统方法对知识发现与教育数据挖掘的相关要素(如,学习者、教师、家长、研究者、学校、企业、教育行政部门)进行分析与综合,按照软件工程学思想,规范与执行知识发现与教育数据挖掘的项目组织、管理(如,生命周期选择、教育需求分析、教育数据选择、项目计划、项目启动与监控)、开发(如,数据挖掘、发现知识)、整合(如,知识评估、文档输出、教育用户培训)等过程实践与相关工作。
(四)在实践中对KDDM进行继承与创新
KDDM过程具有学科交叉性、应用多样性,使得其在不同领域、不同类型任务中具有不同的执行步骤、数据挖掘技术与算法。KDDM的发展与应用需要通过在不同领域实践中探索、试验、积累、反思,实现质的提升。在继承原有理论基础、数据挖掘算法与技术的基础上,它还需要结合当前大数据、云计算、物联网、移动终端、传感器、可穿戴技术、移动APP等新兴技术,进行理论、方法、技术、思想的创新,方能获取新的动力源与应用场。社会创新的引擎是知识创新,知识创新是教育基本社会责任之一。在互联网时代,知识产生的方式不再是权威思辨出来的结果,知识产生、获取、传播、评价的方法正在发生变化。通过KDDM发现,知识是一种新的探究性学习、研究性学习、知识创新与创造的方法,是培养信息知识经济时代具有创新思维、创新能力的终身学习型人才的一种有效途径。
1996-2006年,KDDM过程模型的关注点是模型自身的构建;自2006年以来,其关注点是根据模型探索具有可操作性的KDDM应用模式。尽管,通过数据挖掘发现、生成新知识的研究,已经在机器学习[33]、语义网络[34]、智能代理[35]等与教育相关的领域中开展与实施,但总体而言,KDDM在教育领域的研究与实践普遍存在“重视数据挖掘而轻知识发现”的现象;研究方向主要集中在学习行为分析[36-38]、学习预测[39-41]、学习支持与决策[42-43]等方面;研究与实践的结果主要以发现解释性、预测性的信息或知识为主,而发现、生成新知或者形成智慧的研究较少;KDDM的优势尚未得到充分挖掘。国内教育领域“重数据挖掘轻知识发现”的问题也尤为突出,在教育技术类7本CSSCI来源期刊中,篇名包含“数据挖掘”或“知识发现”的论文合计30篇,其中研究主题包括“知识发现”的论文仅有2篇。由于无法得到有效利用,国内许多数字化教育资源变成了“数字废墟”[44];要让这些“数字废墟”变成“数字金矿”,并开发它们的潜力,提高学习者学习质量与促进终身学习,就需要对这些“数字废墟”实施KDDM。
在体育领域,最初作为军事用途的导弹追踪系统SportVU,如今已经被应用到NBA的篮球场上,通过该系统及设备,它可以细致到将球员每一次传球、弹跳、奔跑速度、投篮结束时间等都被列人技术统计中,作为追踪球员与分析数据之用;可穿戴装备如谷歌眼镜、RPSports系统已成为足球教练团队与球员的新宠。体育领域应用KDDM生成知识、形成智慧的成功案例能否给教育领域KDDM应用带来启迪?在教育领域,是否也可以整合人脸识别以及类似SportVU与RPSports的系统获取学习者学习记录并进行数据挖掘、学习分析,实现个性化教育?是否可利用魔球理论与数据挖掘,组建优秀的教师团队或发现被遗弃的天才并以恰当的培养方式点石成金?是否可以通过有效的数据挖掘工具与算法,建立可操作的教育领域KDDM应用模式,对教育数据进行挖掘,进而重构与创新知识?总之,在实践中对KDDM过程模型、技术与应用模式的继承与创新,将为教育现代化与知识创新带来新的机遇。
五、研究建议
2015年“国际教育信息化大会”(International Conference on ICT 2015 and Post-2015 Education)在青岛召开,会议包括“开发在线学习内容的潜力促进知识创造”、“监测信息技术在2015年后教育中的作用”等主题;知识发现与数据挖掘将是实现上述主题目标的重要解决手段与方法。
结合时代背景与教育国情、KDDM过程模型特征及其教育领域应用启示,本研究提出在教育领域中应用KDDM的四点建议:其一,政府与教育行政部门应该从基础设施、法律与政策上保障教育数据的安全与隐私、数据共享、权限与权益等核心问题得到解决;其二,研究机构、企业、学校应该从案例及应用模式、技术支撑、产品开发、数据输入输出、基础设施与资源建设方面入手,解决KDDM过程的可操作性、效益与效率、准确与科学性等问题;其三,教师、学习者应该提高KDDM的应用意识、执行能力与素养,养成输入数据与利用数据的习惯,学会使用KDDM提高学习质量与学习效率、发现与创新知识;其四,技术发展与产业化发展是相依相存的迭代过程,创业可以打破旧次序[45]。政府与教育行政部分应该扶植教育新产业、创新教育商业模式,有效实现线上教育与线下教育相互融合、实施个性化学习与智慧教育,促进终身学习与教育公平。
当前,教育领域缺少丰富的应用KDDM解决问题的案例及应用模式,风险控制难以保证。一方面是可直接用于KDDM的教育数据不是足够大[46];另一方面是人类社会可用数据中仅有0.5%得到挖掘与分析,大量的数据没能被及时处理,称得上是暴殄天物。数据是基础性资源也是重要生产力,未来最大的能源是大数据。预计到2020年,中国的大数据容量将占世界21%、仅次于美国的23%[47]。和其他学科相比,KDDM就如同正在成长的婴儿、无论在理论研究,还是在实践应用领域均有广阔的发展空间;对于教育研究者、数据挖掘专家、国家与民族来说,这既是一种机遇也是一种挑战。
基金项目: 本文系华中师范大学优秀博士学位论文培育计划项目“信息技术融人儿童早期教育的实践与研究”(项目编号:2015YBZD040)、广西高校科学技术研究项目“广西高校门户网站人本化研究与设计”(项目编号:LX2014290)的研究成果。
作者简介:吴兰岸, 华中师范大学国家数字化学习工程技术研究中心博士研究生、玉林师范学院物理科学与工程技术院讲师,研究方向:数字化学习理论与技术; 刘延申, 博士生导师、教授,教育部教育信息化专家组成员、国家公共安全科技发展规划方案设计专家组副组长、华中师范大学国家数字化学习工程技术研究中心副主任,研究方向:数字化学习理论与技术、智慧城市与智慧教育; 刘怡, 华中师范大学教育信息化研究中心,博士,研究方向:现代教育管理与技术。
来源:《远程教育杂志》2016年第3期 总第234期
作者:吴兰岸、刘延申、刘怡
本文转自:MOOC
责任编辑:王培