CNCC 2018 次日,吴军、张建锋、马维英、凌晓峰等畅谈大数据与数字经济
雷锋网 (公众号:雷锋网) AI 科技评论按,2018 中国计算机大会(CNCC2018)于 10 月 25-27 日在杭州国际博览中心举办,会议由中国计算机学会(CCF)主办,杭州市萧山区人民政府、浙江大学承办,浙江工业大学、浙江工商大学、杭州电子科技大学协办。今年的大会主题是「大数据推动数字经济(Big Data Drives the Digital Economy)」,CNCC 邀请到近 400 位国内外计算机领域知名专家、企业家到会演讲,会议包括 15 个特邀报告、3 个大会论坛,60 个技术论坛,20 场特色活动。
今天是大会次日,特邀报告环节由 CNCC 2018 论坛委员会主席、北京理工大学教授王国仁主持。
作为首位上场的特邀讲者,新加坡国立大学教授黄铭钧为我们带来了题为「企业级区块链系统:从 0 到 1,再到无穷」的报告。
他主要从区块链的概念、技术和价值三个方面来进行分享,并为企业级区块链系统提出了改进和优化方案。他认为区块链有四个关键的概念:分布式共享账本、加密、共识以及智能合约,涉及的技术包括数据结构金额共识机制。
区块链的作用既体现在可使用去中心化的系统提供「中心化」数据存储服务、更为友好地支持数据监管与溯源,也体现在能增强数据的透明性,并以此构建互不信任节点间的信任机制,其价值具体表现在六个方面:
第一,通过更为直接的交易,降低运维成本;
第二,达到高度的透明和共识,共享可信的交易;
第三,降低错误率;
第四,可实现弹性扩容;
第五,不可篡改的加密机制可保证安全性;
第六,严密的交易审核。
然而,随着大量出于投机主义的 ICO 活动以及过度吹捧的区块链系统的出现,使得区块链技术非常容易沦为盲从者的「毒药」。他认为区块链技术不是仅仅用来造币的技术,结合行业的去中心化的应用才是王道。
对于能够运用到行业中的企业级区块链,他认为应该具备高吞吐、易用、安全与隐私、链上可扩展性四个特点。他指出,现在比特币、以太坊、超级账本的交易速度分别达到每秒 6 笔、每秒 10 笔、每秒 600-1000 笔,某些系统更是声称能达到每秒 3 万笔(甚至更高),然而目前尚未有可靠的第三方测评予以实证,区块链技术距离成熟还有一段较长的路要走。
针对当前区块链本身以及在行业应用中存在的问题,他从提升性能、增强功能以及友好交互三个方面提出了改进和优化方案:第一,要从包括可扩展性的提升、优化共识模型、加速运行引擎、实现更强的存储系统几个层面来提升性能;第二,通过实现易用的智能合约语言以及易于表达逻辑上的约束检查来增强区块链功能;第三,通过采用声明式编程语言来实现友好交互。
新加坡国立大学教授黄铭钧
第二位特邀讲者是 Google 中日韩文搜索算法的主要设计者吴军,他的报告题目是《超级智能时代》。
吴军博士认为未来的世界应该是强连接的,而这种强连接带来的好处包括:更好地保障食品和药品安全以及交易安全,还能够更好地追踪健康,让人能够更加及时发现病症。同时,他也指出这种强连接会带来隐私隐患、风险和危害,例如,IT 巨头掌握并控制大量的数据信息,一旦泄露就会导致巨大的隐私风险;黑客犯罪成本接近零,巨大的收益将会鼓励他们进行网络犯罪。这些问题可能是用法律无法解决的,所以我们需要尝试从技术的角度来解决它们。
他表示,区块链是可能的解决方案。这是由于其具备如下特点:
一是这项技术将所有权、使用权和验证分开了,更好地保证了公正性;
二是较高的安全性,其理论上是无法破解的;
三是方便性,可随意合并打包和拆解,能很好地进行追踪,极大方便了溯源;
四是低成本;
五是透明化程度高。
至于区块链在具体应用场景中的作用,他提到两点:第一,去中心化,能够存放病例等数据信息,使得使用者和拥有者都能从中获益;第二,是智能合约方面的应用,能够使用区块链监控贷款还款以及拨款等问题,所有的执行完全由算法监控,这使得相关人员都无法进行人为违约。
在列举了区块链的种种优势和作用后,吴军博士也承认,区块链的这些优势有一定的理想化成分。在现实情况中,区块链的协议还很粗糙,使用不够方便,并且成本非常高,比如使用区块链买一杯星巴克需要花费 12-15 美元,并且还会存在 2-3 个小时的延时问题。
最后,他总结到:虽然区块链现在还存在很多问题,现存的 99% 的区块链甚至是假的,不过区块链也确实能解决现在一些难以解决的问题。有些问题倒过来看就是一个机会,当出现问题的时候,就是每个计算机科学家得到机会的时候。
Google 中日韩文搜索算法主要设计者、博士吴军
第三位报告嘉宾是加拿大西安大略大学终身教授、加拿大工程院院士凌晓峰。他开场幽默地表示,自己来自于西安大略大学,而不是西安大学。他说道,今天会场有很多博导、研究生,而在报告之前,他想先向大家推荐他和杨强教授的书《学术研究——你的成功之道》。他表示,这是推荐,不是推销,国内很多网站上都可以找到这本书的盗版资源,这引得现场欢笑连连。
谈到人工智能,他表示,人工智能更多解决的是实际问题,但做研究的人太注意算法,不注意实际问题。我们应当「先找到钉子,再找适当的锤子去锤它。」
说到人类智慧,他提到《人类简史》。其中有三次重要革命,一是认知革命,二是农业革命,三是科学革命。在他看来,侵略性(aggression)和智慧(intelligence)是两个驱动力。将侵略性和智慧分为两维,有人只拥有后者没有前者,有人只拥有前者没有后者。在他看来,普京就是集合两者的代表,特朗普在这两点上都略微比普京差一点。
报告最后,他提到人工智能发展的七大趋势:
智能大脑,它从人工智能出现以来就在不断发展。
智能大脑+,未来将会是「AI of Everything」。
智能机器人,比如家庭服务机器人,这在严重老龄化的社会极有发展前景。
无人驾驶,这会给经济、人类社会发展带来极大变革,不过这项技术目前还有诸多挑战,比如 Uber 在今年三月发生了一场事故。
人工智能将来会拥有情感。
智能伴侣。
智能机器人/战争。
他表示,五年、十年后将出现更高的失业率,但生产率将会更高。这里提出四个 C:一是 Critical,要有批判精神;二是 Creative,要有创新思维;三是 Communication,会交流;四是 Collaboration,即合作。
中国特别强调填鸭式教育,现在大学生都应该学习编程程序,比如 Python 或者 AI 程序,他也极力为大家推荐了《Hands-on machine learning with scikit-learn&TensorFlow》一书。他表示,教育不应太注重死知识。
而在报告中,他也提到他们在欧洲做的服务于糖尿病人的平台 GoHealthNow,接下来他们也打算在中国做一个闭门式系统。
加拿大西安大略大学终身教授、加拿大工程院院士凌晓峰
随后上台的嘉宾是字节跳动副总裁、人工智能实验室主任马维英,他的报告主题是《人工智能赋能全球创作与交流平台》。他表示,在凌晓峰教授之后进行报告的压力非常大,因为凌教授讲得太风趣了。
报告伊始,他简单回顾了人类历史在不同阶段技术的变革,从造纸、印刷术再到 PC 互联网时代,进一步是智能手机、移动互联网时代,再到智能手机+移动互联网时代,再到人工智能时代,未来是人工智能与人类共同学习的超级智能时代。
接下来,内容分发将会变得智能化、个性化、社交化,以及无处不在。
他说道,人工智能基础设施、平台与服务将会赋能推荐、搜索、助理、社交。现在大家在手机上就能进行短视频创作,在过去一段时间,短视频在全球范围内快速增长。他们希望利用人工智能技术,理解每个视频里的情感、情绪。
随后,他举了 AI 辅助内容创作的几个例子,比如人体关键点检测与跟踪技术及应用。另外,他也提到特效和手势识别技术及应用,如瘦腿、控雨等特效,此外也有一些与电商有关的场景。
在机器写作领域,他举了如下例子,系统可以在体育运动中侦测球员在场上的位置,知道他们在球场上的活动,看球员是否进球,目前可以完成葡萄牙语、英语、日语等多种语言的自动写稿。
对于人工智能辅助内容审核,他表示这里涉及到图像识别模型、文字识别模型以及虚拟识别模型。除此之外,音乐创作也包括多种应用场景、解决方案、技术平台。希望让 AI 回到源头,辅助人类消费和生产。
字节跳动副总裁、人工智能实验室主任马维英
第五位嘉宾是阿里巴巴集团首席技术官、阿里巴巴达摩院院长张建锋,他基于阿里巴巴集团核心技术布局及阶段性成果,多角度地展示了新技术对新零售、智能生活等数字经济的支撑作用。
他首先从数据的获取、存储、处理和应用四个数据化角度,诠释阿里巴巴如何建立端到端的数字经济框架。
目前阿里巴巴已累积了海量的数据来支撑其数字经济体,例如,基于现有业务,阿里巴巴积累的数据总量超过 1500 PB,每日数据的更新量达 100 PB,数据处理能力为每日 300 PB。
数据中心作为承载海量数据的基础设施,阿里目前已在全球建立了 200 多个数据中心,并对服务器进行定制化来加强数据的可控性。此外,阿里巴巴还采用全域智能数据库与存储系统来支撑数据存储和分析,并将软件的操作固化到硬件上去,采用云端一体的人工智能芯片来支撑海量数据的计算。
他还从阿里致力于实现的应用场景出发,展示了数据技术创新对数字经济的推动作用。例如在新零售领域,阿里通过超大规模图计算技术挖掘数据深层次关联的价值,使得线上购物等行为能获得与线下一致的体验。作为北京冬奥会的合作伙伴,阿里还在致力于将冬奥会场馆 3D 化,并尝试将室内 3D 化扩展到城市级别的重建,建设数字化城市。在跨境电商方面,数据则能提供多语言服务能力,而这种语言服务能力会深刻地影响业务的形态。此外,数据在智能生活、城市大脑和工业大脑等应用中,分别发挥着提升语音交互体验、作为城市新型基础设施、为企业利润的持续增长提供新路径等作用。
最后,他也对技术在学术界和工业界的差异性,表达了自己的看法。他表示,在学术界可行的技术,在应用于工业界时,即便实现了 99.99% 的准确率,那 0.01% 的失误率也意味着事故隐患,因此,技术在工业界还有很长的路要走。
阿里巴巴集团首席技术官、阿里巴巴达摩院院长张建锋
短暂的茶歇之后,迎来今天上台的第六位嘉宾——中科院计算所高通量计算机研究中心主任、中科睿芯董事范东睿,他的报告主题为《高通量数据流众核处理器》。
报告伊始,范东睿博士借用了个性定律——「每一个比特都在互联网上,每一个比特币都可以在互联网上流动,比特所代表的每个对象都是在互联网上可计算的」来诠释高通量的特质:交互流动并可被计算。
他说道,我们现在都不需要说数据大了,我们要关注的是怎样去处理这些大数据。对此,他的观点是,未来的数据世界,高通量数据处理将占据最高点。
范东睿博士主要从中科睿芯三代处理器的发展历程来诠释高通量技术的特点和计算优势。
-
第一代为 2006 -2011 年的高性能数据流众核处理器,其利用了基于数据流的运行时管理的关键技术,可支持线程的高效启动和退出,以及细粒度同步操作方式;
-
第二代则是 2011 年-2017 年的高通量数据流众核处理器,这代处理器融合了时间敏感的高通量数据通路,可实现离散访存收集,提高访存带宽利用率,并支持时间敏感任务调度机制,确保网络通信服务质量;
-
第三代处理器则始于 2018 年,范东睿博士将其称作「激进的高通量数据流众核处理器器」,其采用高通量「时敏数据流」(时间敏感控制+数据流执行)硬件结构,能极大地提高能效性。
基于这三代高通量处理器,范东睿博士对高通量前沿使能技术的展望是:超导+光互联。他认为二者结合将是高通量计算的完美数据流方案。
中科院计算所高通量中心主任、中科睿芯董事长范东睿
接下来上台的嘉宾是英伟达公司高性能计算与新兴业务中国区总经理刘通,他在报告中表示,TURING 架构是英伟达巨大的跨越,这里他用具体参数给出了说明。目前,英伟达也在持续探索新的领域,虽然深度学习在今天依然处于萌芽状态,但英伟达为这一切提供了可能。他表示,英伟达芯片存在非常多的探索性、可应用性。随后,他列出了几个通用深度学习加速器,如 Tesla T4,TensorRT 5.0。
谈到此次大会主题「大数据推动数字经济」,他表示,我们需要持续探索新的领域。随后,他指出数据科学面临的巨大难题:如在数据的提取、分析,以及训练过程中,等待数据结果非常耗时。面对现在的瓶颈,必须在性能上实现飞跃。
他提到英伟达发布的软件加速产品 RAPIDS,目前已经开源,支持 CUDF、CUML、CUGRAPH 等,可以实现用更快的速度来解决实际问题。他着重介绍了英伟达新产品 DGX-2,他表示,一台 DGX-2 可以替换 300 台普通服务器,这在性价比上极有优势。
报告最后,他提到英伟达深度学习学院,既支持实战培训,云端配置 GPU 实验环境,还可以进行系统化培训,以提升解决行业实际问题的能力。而在下个月中旬,英伟达将在苏州举办 GTC CHINA2018 大会,会上将有更多关于英伟达技术的分享。
英伟达公司高性能计算与新兴业务中国区总经理刘通
随后是两位 CCF 青年「两秀讲者」的主题报告。
上海交通大学陈海波教授的报告主题是《低时延数据中心操作系统》。报告伊始,他表示,现在很多高频交易都是在与时间赛跑,在传统领域,时延是制约用户体验的关键因素,现在网络计算应用时延需求从秒级走向微秒级。任天堂总裁岩田聪曾提到,电子娱乐交互体验中最重要的是用户能够得到快速响应,目前云计算还难以满足游戏平台的低时延需求。
随后他提到以下两点:典型应用时延需求中,网络时延和系统时延都是关键因素。随着 5G 等超低时延网络的出现,数据中心时延更为关键。
他表示,1967 年首届 SOSP 在田纳西州举办,同年多道程序设计提出者 Maurice Wilkes 获得图灵奖,2017 年第 26 届 SOSP 在上海举办,同年第一个浏览器实现者 Tim Berners-Lee 获得图灵奖。
随后,他表示操作系统演化进程从以前的单机 OS 进化到现在面向网络的操作系统,而为了构建低时延数据中心操作系统,主要有如下几点挑战:
挑战一:低效抽象。数据中心硬件走向纳秒级时延,低效抽象掩盖硬件低时延能力。
挑战二:协作失衡。如单节点突发高时延以较高概率增加整体时延。
为了应对这些挑战,需要进行计算范式的演化,平衡计算和数据的迁移。
接下来他引出原位计算的概念,原位计算即面向低时延硬件时代的计算范式。而这里也有如下三点挑战,一是如何提供硬件资源的低时延抽象,二是如何平衡划分数据减少数据迁移,三是如何基于高效数据迁移构建计算框架。
报告最后,他总结了他们团队近期的工作,包括低时延硬件抽象、高质量数据划分、原位计算范式框架。从近五年操作系统领域论文统计情况来看,他们的团队的表现相当不错。
2018 CCF 青年「两秀讲者」、上海交通大学教授陈海波
最后一位特邀讲者是 2018 CCF 青年「两秀讲者」、中科院计算所研究员孙晓明,他的报告主题是《量子计算》,主要分享了其在量子计算方面的研究进展。
他从量子计算的发展历史、特点以及经典算法几个角度,为大家进行了分享。量子计算由理查德·费曼于 1982 年提出,主要通过两大特性——量子叠加和量子纠缠来加速计算,量子计算运行在一个图灵机上的计算能力基本就相当于经典图灵机。同时,孙晓明研究员还分享了两个经典的量子算法——Shor 算法和 Grover 量子搜索算法。
此外,他还重点讲了最近非常热的一个概念——「量子霸权」。这一概念最早由加州理工学院量子理论学家 John Preskill 提出,目前有很多企业对这个学术概念进行研究以寻求突破,不过也有另一部分企业选择其他的研究方向来加速计算。
最后,他讲了自己对量子计算的理解:应该尽可能地去理解量子计算的能力和局限。量子计算虽然让很多难题的解决成为了可能,但它也有不能解决的问题,不过正是这些不能解决的问题,给了量子计算更多发展的可能性。「试想一下,量子计算在未来有可能应用到机器学习和深度学习中吗?」
2018 CCF 青年「两秀讲者」、中科院计算所研究员孙晓明(左)
精彩的特邀报告就此结束,上午与特邀报告同期举办的 CCSP 2018 颁奖会也引起了较大关注,雷锋网 AI 科技评论获悉,清华大学、华中科技大学、长沙理工大学成为排名前三的高校。下午则迎来多场精彩的技术论坛,如「数据开拓商业新业态」、「自然语言生成:让机器掌握文字创作的本领」,「神经科学理论与新计算模式交叉论坛」等。技术论坛结束之后,将会迎来今天的重磅环节——CCF 颁奖晚宴,届时,将会揭晓一系列奖项。雷锋网 AI 科技评论也将持续为大家带来更多关于会议的现场报导,敬请关注。
。