用户大数据是高校开展互联网应用研究的必选项

百度百家 • 9年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

高校适合做基础研究、超前研究，应用研发留给企业去做，这个观点得到越来越多的同仁们的共识。然而，高校里还是活着两种人，一种人喜欢也擅长做基础研究，比如Hinton这样的学者，能够从算法上推动机器学习的进步，进而对工业界产生重大的影响；更多的人在从事应用研究，试图解决应用中出现的问题。从事应用研究的学者在互联网时代，在大数据时代，如何才能做出真的对工业界有用的成果？换句话说，怎么做才能使大企业在当下或未来真的需要借鉴或购买高校的技术成果呢？

在回答这个问题以前，我们先把当前互联网大企业与高校互联网域的实验室在6项技术研发要素上做一个对比：

互联网大企业：

1. 人才：都是各大学（尤其是重点大学）培养出来的优秀人才，都是成手，他们带着在校门里掌握的技术加入企业

2. 工作效率：全职工作，高工资加期权，KPI严格考评，行动力极强

3. 资金：不需要解释了

4. 计算设备：以GPU为代表的大批高性能服务器，以及工程化的支持大规模计算的软件架构

5. 数据：T级，甚至P级海量真实数据

6. 用户：海量用户，每天提供大量用户行为数据，这是群体智慧之源

高校互联网领域实验室：

1. 人才：资深教师有眼光和经验，有限数量的青年教师掌握核心技术，科研力量主要是研究生，每毕业一批学生，实验室的实力都会减弱，新入学的研究生需要从头培养

2. 工作效率：组织松散，教师需要讲课、指导学生、申请项目、学术交流等，学生要上课、找工作等，效率比较低

3. 资金：国家投入不断增加，但跟互联网大企业相比差几个数量级

4. 计算设备：国家投入不断增加，但跟互联网大企业差几个数量级

5. 数据：总体上，跟企业相比差几个数量级

6. 用户：几乎等于零

从对比中，我们可以看出，1-5项，高校虽然弱，但还是有，而第6项，对于绝大多数高校实验室而言就是0。弱，会带来很多问题，1-4项的弱会导致高校的技术生产力明显不如互联网大企业，而5的不足将直接导致一些需要大数据支撑的科研工作，在高校里做出的成果对企业无意义，这又分两种情况：一种是高校在小数据上做出的结果很好，但到企业大数据上一跑，失效了；另一种是高校在小数据上做的效果不佳，而企业使用同样的方法在大数据上却取得了很好的效果。如此，高校成果对企业的借鉴意义降低了，这也是国外一些著名的学者，如Hinton、吴恩达等，纷纷离开高校，加盟企业的主要原因。

不过，“弱”毕竟还是”有“，可以通过集中优势兵力，超前布局等在一定程度上去克服。更要命的是第6项，在高校里做研究普遍脱离了用户！吴恩达在2014年的百度世界大会上讲述了“人工智能正循环”的思想，讯飞研究院的胡郁院长也曾提出非常类似的“涟漪效应”的观点，就是把一个不成熟的系统放到互联网上让用户使，用户在使用过程中会贡献大量的群体智慧，这种群体智慧会快速地帮助提高系统的技术指标。任何一个系统的能力提升，都必须有外界知识、能量的注入，互联网大企业有海量用户，每天可以吸收到大量的知识，而高校由于与用户脱节，只有靠人工标注的小规模（甚至可以说是微规模的数据），加上教师学生们在算法上下的功夫来改进系统，这就失去了当前人工智能研发范式中极其重要的一环。

在很多研讨会上，都看到高校的老师在问企业到底能够向学术界开放多少数据？其实，数据有两种，一种是用户贡献的内容数据（UGC），一种是用户行为数据，前者由于微博等开放数据平台的存在，是可以支持高校做不少研究的，但更为重要的是用户行为数据，用户查询了什么，点击了什么，最最重要的是用户怎样使用你开发的系统，给出了什么样的具体反馈。而用户行为数据，一方面有隐私问题，另一方面由于其价值非常高，企业是不会开放的。

结论：在当前条件下，高校从事互联网应用研究的学者，必须与企业紧密结合，或者自己做出能够吸引一定数量用户使用的原型系统，才能获得用户行为数据。最好在企业已经搭建起来的大平台、高平台上开展企业暂时做不好或无暇去做的研究，保底也要自己拿到足够的真实的用户行为数据，如此才有可能在某个很聚焦的点上做出真正有价值的应用技术来。否则大企业在诸多互联网应用研究上领先于高校的情况将继续存在，高校开展应用研究的价值真的就只是培养学生了。

注：本文的观点是对我四年前关于高校应该与工业界松耦合想法的一个否定，自我否定的主要原因是意识到用户大数据在技术提升方面迸发出的超能量，用户大数据对于高校不是可有可无的，而是必选项。本人的研究领域：自然语言处理、社会媒体处理、信息检索，本文所谓互联网应用研究，主要指的也是这几个研究领域，受本人视野所限，偏颇之处，请读者见谅、指正。