达观数据创始人陈运文:处理操作机械性、重复性文字,计算机将超人类
8月30日,以“智慧+新服务”为主题的猎云网2018年度企业服务产业创新峰会在上海凯宾斯基大酒店隆重举行。峰会上,达观数据创始人兼CEO陈运文做了主题为《文本智能处理的企业应用实践》的演讲。在陈运文认为,对于机械性、重复性文字资料的处理操作,计算机的能力很快会超过人类。
陈运文表示,计算机可以像人一样运用文字,找错别字、核对财报、行政审批等做文字自动化处理、自动化阅读理解。今天计算机已经可以把“划分一句话的主语、谓语、宾语”做得非常好,基本上达到小学语文老师的水平;十年以后,计算机可以代表人做大量的基础性文字处理工作。
在陈运文看来,那些特别枯燥、重复的文档处理工作就应该交给机器做,而不是每天耗费人们大量时间,人类应该做更有创造性的文字处理工作,放飞思路,去联想、创造。
文本智能化处理,可以大幅度提高行业效率,普通人一秒钟阅读速度差不多是20至30个汉字,普通计算机能够处理一万字。要实现文本自动化处理,首先要教会计算机。
在学习过程中,计算机和人相比有两个突出特点,一是训练过程中需要运用大量样本数据;二是需要教上十几万遍、甚至几十万遍才能让其学会;好处是,一旦模型训练好,计算机可以7×24不休不眠的工作。
像金融、法律、媒体、互联网等等,这都是文字资料非常集中的行业。陈运文表示,只要有文字、文档的地方,计算机自动阅读理解的技术都可以大幅度地提高效率、节约成本、提高准确率。目前,计算机抽取关键信息、审阅、搜索、推荐阅读等这些功能都受到业界欢迎。
猎云网2018年度企业服务产业创新峰会,由猎云网主办,锐视角、猎云资本、猎云财经、AI星球、创头条协办。政府领导、投资机构、创业者等嘉宾围绕企业服务领域,大数据、人工智能、知识产权、共享办公、法律税务等垂直赛道的多个议题展开探讨,来自全国各地的上千名业内人士齐聚一堂,共同寻找创业新商机,把脉企业服务未来新方向。
以下是嘉宾演讲实录,猎云网(微信:
ilieyun
)整理删改:
非常荣幸今天有机会受到猎云网的邀请给大家分享我们达观数据在文本智能处理领域的应用实践。
首先我做个自我介绍,我自己是达观数据的创始人兼CEO,我一直做技术,最早在复旦大学计算机系读博士,在百度、盛大公司一直做技术研发的相关工作,非常有缘我能够作为技术专家从事所有和文字自动化处理、自动化阅读理解的相关工作。
其实挺有意思的,因为我小的时候偏科得很厉害,数理化经常都是拿满分,中考、高考都是数学满分,但是语文不好,我当时觉得写一篇文章对我来说是挺折磨人的事情,我特别羡慕语文好的同学,下笔如有神、洋洋洒洒,如果在座有记者朋友,我特别羡慕你们,我觉得写文字下笔如有神。
所以我当时琢磨,能不能让计算机像人一样运用文字,并能写作?这件事对我来说是非常有价值的。我创办达观数据以后,坦率地说和文字打交道的工作越来越多,我申报的项目要写项目标书,很多的标书写作是有规律的,写多以后就发现有相应的格式、规范和套路。能不能让计算机阅读理解,代替人完成一部分的文字写作、审核?我们觉得这件事非常有意义,所以这也是我们达观数据做的工作,文字自动化处理。
我们公司现在总部在浦东张江,在全国各地,北京、深圳、成都等地方都有布局。我们是中国国家级的高新技术企业,也是上海浦东的一张名片,我们做的工作就是让计算机段文写字。
我相信各位生活中一定有这样的体会,我们每天有很多的时间浪费在和大量的文字打交道的工作上。比如说找错别字;比如说媒体朋友写文章找错别字非常繁琐,而且很难做到没有错误;财会的朋友有大量的财务报表、财务报告,各种债券,这些不能出错。我们有大量的核对工作都是人来做,这些工作其实非常繁琐,费时费力。政府里面要提高行政审批的效率,但是政府的公务人员很辛苦,每天有大量的文档要看。能不能让计算机帮助人、政府员工加快行政审批的速度?这些都是和文字打交道的工作。
我们今天看到用人工智能和大数据技术,可以在一定程度上代替或者辅助工作。用这张图(演讲PPT)看一看,其实计算机的处理文字过程和人处理文字的过程非常类似。左边是人脑,人怎么工作?人做日常的处理工作,手把手教新员工,做三遍、五遍、十遍,人可以总结出里面的规律,新的任务来了以后,通过以前的三五遍的经验就可以开始处理工作。计算机完全类似,教计算机做这些工作,计算机从这些数据中,通过算法训练总结模型,当新的任务来的时候就可以用模型开始工作,过程非常类似。
但是计算机和人相比有两个特点,计算机的训练过程中运用数据量比人大得多,人是特别聪明的,可以举一反三,比如说一个事情教人三遍,人就会了,教十几遍,大家觉得你很笨。但是教计算机就很累,很难教三五遍后它就学会,我们通常要十几万遍、几十万遍地教,它需要的训练样本数量要多得多,所以比较缓慢。所以我们经常说为什么人工智能要和大数据结合在一起,就是计算机需要海量的数据训练才能达到接近人的水平的程度。
计算机好的地方是什么?一旦模型训练好以后,可以7×24不休不眠的工作,可以保持得非常好。人的大脑会疲劳,科学家做过实验,人重复做一件事40分钟以上,差不多一节课的时间以上,人的效率会迅速下降,准确率会下降,但是计算机不会,计算机可工作7×24小时。而且软件系统的复制成本非常低,接近于0。
我们培养人类的专家需要很多时间和精力、金钱投入,但是计算机完成一个训练模型以后,可以非常轻松地变成两个系统、十个系统、一百个系统、一万个系统,相当于你有一万个员工,同样水平的不休不眠地工作,这带来的效率提升非常大。
今天的计算机系统在做文字处理的时候已经可以把一些文本阅读理解分析做得不错,比如说法律法规、招股说明书、档案问答等等常见的文字载体,让计算机自动地完成这些工作。这些工作到今天为止在大部分企业里都仍然靠大量人做,比如说提炼观点、抽取信息、审核内容、找错误等等,这些都是人在做的。今天让计算机代替人来完成其中一部分非常繁琐的工作的日常处理。
我们现在服务的客户有很多,像金融、法律、媒体、互联网等等,这些都是文字资料非常集中的行业。计算机做的过程其实并不神秘,这个过程和人从小到大学语文的过程非常类似。
计算机学语文的时候也是分三个层次,字词级,小学一年级的时候语文老师教我们认汉字,三千个常用汉字+很多很多的词,认识词以后会造句,然后是段落、句子,然后让计算机写文章,一篇文章由二十句话构成。同样,我们计算机做文字理解的时候也是分字词、段落、文章来做。
我们这里有个例子,让计算机自动化地进行文字阅读理解,用我们达观数据的一个小弹幕系统演示下。
复制文本到计算机,计算机首先分词,然后自动识别出每个文字中的词性、词性分布,这件事已经超过普通人的能力了。
计算机还可以自动识别出所有你里面想要的信息,比如说人名、地名、机构名、具体的数字都可以抽出来。计算机还可以像语文老师一样把主谓宾分清楚等等,还可以用语言模型的方式帮你纠错;用主题模型的方式帮你发现文章中的主要内容;通过语义网络的方式帮你发现所有的字词关系;通过摘要的技术把文章做缩写;可以提炼观点;可以给文章打上各种各样的标签,做自动化的分类;可以做内容的审核;还可以写诗,用上海+嘉兴可以写一首藏头诗,可以用计算机写对联,写诗、写对联都是让计算机阅读海量文字以后做的,出个上联“人工智能汇张江”,它瞬间可以写出八个下联,这个能力是超过普通人的。计算机还可以改写,把一段文字改写成不同风格的文章,比如说改成裁判文书。
今天的计算机在做文字自动化处理领域已经可以做很多意想不到的工作,这些工作我们觉得都是非常有意义的,我们希望未来有更多的应用场景,能够把计算机做文字自动化理解用在应用场景上,这可以大幅度提高效率。
普通人一秒钟阅读速度差不多是20至30个汉字,差不多一条微信的长度,普通计算机一秒钟能够处理文字速度是一万字。想想下,普通一台电脑可以有500倍的效能提升。上市公司的招股书很长,一个人从头到尾看一遍要花很长时间,计算机几秒钟就可以看完并找出问题,可以做核对工作,这些我们觉得非常有意义。
我们今天可以做大量的工作,比如说从里面抽取关键信息,一个文档里面的关键信息分布在不同的地方,比如说合同里面有大量的关键信息,计算机可以自动抽,今天我们把合同上传到系统中,一秒钟以后计算机就可以把合同里面要了解的关键信息抽取出来,帮你自动填表、自动录入、自动核对。各种各样的金融报告、人事简历、用户意见观点或者是司法、政府文书的内容审查等,这些都是信息抽取的相关工作。
审阅,今天有很多初级审阅工作是非常繁琐的,最基础的帮你找错误,这些非常繁琐,我们人脑不善于处理非常枯燥的文字核对纠正工作,但计算机非常擅长做这一点,所以审核是非常常见的需求。
搜索,那更有用了,从大量的文档资料中找一个东西,我们需要大量的语义分析工作。
推荐,最近几年炙手可热的领域,尤其是在移动互联网时代,大家已经习惯信息流这样的内容获取方式,后台需要有一套计算机自动阅读的系统帮你做好文字的阅读理解和内容分析,并且完成个性化的推荐系统,这也是非常受欢迎的功能。
所以在很多行业,比如科技金融、传媒制造等等,只要有文字、文档的地方,我们的计算机自动阅读理解的技术都可以大幅度地提高效率、节约成本、提高准确率,我们觉得这件事非常有意义。
我们现在也服务了非常多的中国企业,我们希望未来有更多的企业能够用上达观的系统。
我现在做个展望,对于机械性、重复性文字资料的操作,计算机的能力很快会超过人类。其实我们今天在一些特别基础的文字处理方面,比如前面弹幕里面放得比较快的计算机给你分析一句话的主语、谓语、宾语这样的句法结构分析,小学三四年级语文老师会教我们,但是今天在座嘉宾大部分人可能已经很难把一句话的主语、谓语、宾语划分得很清楚,把字词之间的关系像当年我们学语文一样厘清得清清楚楚。但是今天计算机可以把这件事做得非常好,远远超过普通人的能力,基本上达到小学语文老师的水平。
所以我们说有大量的机械性、重复性的文字操作工作,十年以后有大量的基础性文字处理工作,计算机都可以代表人来做。其实人类就应该做更有创造性的文字处理工作,我们放飞自己的思路,去联想、创造,那些特别枯燥、重复的文档处理工作就应该交给机器做,就不应该耗费我们每天那么多的时间,我们希望未来各行各业都有计算机能够完全替代的部分工作,我们希望达观数据能够成为中国文字处理的领军企业,谢谢各位!