蚁坊软件专访:大数据的“拾荒者”与“淘金者”
蚁坊软件总经理:刘涛
1. 如今大数据在各行各业越来越热,蚁坊怎么看待这一现象?
在经历了这么多年的信息化之后,各行各业都积累了大量的数据,最初的信息化工作主要是为了解决一些相对独立的业务需求,所产生的业务数据相对有限;随着业务的不断扩展,又逐渐衍生出一些跨部门和跨平台的需求,业务数据量也在逐年增加;进入互联网时代后,大量新兴的业务形态层出不穷,也带来了数据量的爆炸式增长。大数据的价值最先通过互联网 企业 被大家认识,甚至可以说有些过度的渲染,这也可以解释为什么各个行业都在想尽办法建设自己的大数据应用,但真的要把大数据应用做好,还是面临着许多的困难和挑战的。
2. 为什么这么说呢?
就拿我们蚁坊软件自身来说吧,在2010年成立公司的时候,我们给自己的定位就是一家做大数据的企业。当时大数据的概念还没有今天这么热,但我们确实通过互联网社交平台的兴起看到了未来的发展潜力,我们希望能成为大数据的“拾荒者”与“淘金者”,为此,公司持续投入了大量资金和技术力量打造了我们自己的大数据服务云---“蚁工厂”,作为一家还处在创业初期的公司,要持续这么多年在大数据平台上保持这么大的投入是非常难得的。此外,很多客户以前对信息化建设的理解都是要采购设备、开发软件、做集成项目,而我们在公司成立伊始,就明确了要建设自己的大数据平台,通过SaaS的方式向客户提供服务,这种业务模式在公司发展的前几年遇到过不小的阻力,很多客户一听说没有设备,就买几个账号,几乎都不愿意谈合作,但经过我们这些年的不断努力,通过持续的优质的服务,加上政府采购政策中对服务采购的明确扶持,我们已经成功的让众多客户接受了蚁坊,也接受了蚁坊的服务模式,目前使用“蚁工厂”提供的大数据服务的政府单位已经突破一万家。
3. 蚁坊在2010年就开始做大数据,应该是国内做大数据比较早的企业,你们在这方面做了些什么工作?
非常幸运的是蚁坊在成立之初就拥有一个稳定的技术团队,核心人员均有十年以上的软件行业经历,尤其在分布式采集框架和实时处理框架方面,是我们的核心技术优势。在确立了社交网络大数据作为主营方向后,我们打造出了一个特色鲜明的大数据服务云---“蚁工厂”。
实时处理能力上,“蚁工厂”能够做到实时采集和实时索引,在每天超过4亿条互联网数据入库的同时,保证索引和查询的响应时间为秒级。
批量处理方面,“蚁工厂”能够从多个维度一次性处理超大量的社交网络数据,可以高效的对PB级的数据进行检索和计算。如从近一年的所有微博中检索出符合特定条件的微博,或计算微博所有博主的相互提及关系等等。这种超强的计算能力构成了我们大数据舆情分析的基础。
在大数据交互方面,“蚁工厂”以全网数据为基础建立了社会情绪分析系统。通过机器学习建立模型进行情绪倾向性的判断,并建立科学的指标体系将多种情绪进行量化和归一化处理,经降维获得综合的社会情绪指数,从宏观的角度衡量社会情绪的变化,从而发现潜藏的重大舆情信息。
目前我们已经参与起草并通过了三项舆情行业的国家标准,由蚁坊研制的社交网络分析系统也获得了国家科技进步二等奖。
4. 看来蚁坊软件主要侧重于社交网络的大数据,能谈谈在这方面的体会吗?
蚁坊软件的大数据主要来源于互联网上的公开数据,特别是社交网络数据方面。我们对这些数据进行处理,向我们的客户提供舆情分析服务。这是一个对数据量要求很大同时又有很高时效性要求的场景。“蚁工厂”中存储着全球十几亿网民、数万个网站的实时数据,数据处理要求达到PB级。单个客户不管是经费上还是技术力量上都很难驾驭得了这样的一个平台,因此从产品形态上,我们选择了纯SaaS化,这样一来,客户无需投入庞大的资金和技术力量也能享受到大数据服务带来的便利。
5. 前面您几次提到SaaS ,为什么这么坚定的选择软件即服务(SaaS)模式呢?其他企业有选择这种模式的吗?
先回答您后面这个问题吧,其实很多企业都认识到了SaaS模式带来的好处,但真正能做到彻底的服务化的企业却并不多,这其中最关键的问题在于,很多软件企业在特定的行业或领域内已经耕耘了多年,无论是其产品的架构还是公司的技术储备都已相对固化,再加上多年来建设的无数项目需要耗费大量的资源进行维护,很难通过持续投入和技术革新来完成企业的转型,就像一艘满载货物顺流而下的轮船,想要掉头十分困难,甚至一不小心还有可能翻船。
而我们蚁坊的核心团队,经历过项目、产品和服务这些不同的阶段,因此在蚁坊成立之初,就确定了坚定的走SaaS服务的路线。
首先,这种方式可以带来产品的快速迭代,使我们的产品特性不断深化。我们积累的各种行业特征词汇也可以实时的应用到不同的客户场景中。
其次,SaaS模式在部署上十分便捷,我们的客户都无需任何实施工作,更简单的说,只要能上网,就能使用到我们的舆情服务。
另外,在服务至上的今天,快速响应的能力考验着每一家软件企业,而采用SAAS模式,我们能够第一时间响应客户,保证我们的服务持续改进,并且不管面向多大规模的客户群,都能够有足够的弹性去适应。
6. 蚁坊目前都有些什么产品?为什么能得到这么多客户的认可?
蚁坊目前的产品主要是互联网舆情服务相关的,包括鹰击微博舆情,鹰眼全网监测和鹰仔全网互动等一个系列。此外蚁坊还有一支由专业的舆情分析师组成的报告服务团队,面向高端客户提供专属的各类舆情分析报告。
我们的产品和服务之所以能得到这么多客户的认可,得益于产品的时尚感、良好的用户体验、以及SaaS带来的便捷和省心。
蚁坊的每个产品都有着自己鲜明的价值体现。如“鹰击微博舆情”,核心价值是“早发现”,监测频率达到秒级,通过实时全面的监测微博,第一时间发现自己关心的内容,为早报告、早响应提供先机。而不管是传统的网站、论坛、贴吧、博客…还是微博、微信、APP等新媒体平台,“鹰眼全网监测”都将其纳入采集,方便用户“速读网”,了解舆情发展态势。“鹰仔全网互动”是一款帮助用户在互联网平台“早响应”舆情,疏导舆情危机,与网民建立良性互动的舆情产品,它可以协调整个团队在多种站点如微博、新闻客户端、论坛等进行互动操作,并全面评估舆情引导效果。我们的舆情分析师团队“鹰眼舆情观察室”,他们致力于舆情事件的追踪、分析与应对,可以为各级政府机关、企事业单位提供的专业的舆情应对建议及数据分析服务。
7. 微博有些什么特点,如何实现微博舆情监测?
微博是当前唯一一个具有媒体属性的社会化网络平台。其特点包括:媒体性、弱关系社交、平等性、快速传播性等等。目前而言,舆论的爆发大部分是通过微博,甚至出现过“报警不如发微博”这样的言论。
微博舆情监测和普通的舆情监测相比,需要处理好微博及其传播的一些特性。首先,要建立一个稳定高效的处理平台,微博有数亿的用户,每天都有数亿的新数据产生,光这一项,就给传统的舆情监测企业提出了很大的挑战;其次这个平台还应具备对微博数据的深入分析能力,包括事件传播路径、传播地域分布、人物社交关系、情感倾向等等。通过这些,我们就可以对舆情事件进行更准确的判断,更科学的指导舆情应对工作的开展。
8. 舆情监测在公共服务及社会管理方面有哪些应用?
一方面,通过舆情大数据分析我们可以精确的了解网民对某一公众事件的看法。如城市修建轨道交通前,可以利用舆情监测来了解人们对线路规划的诉求、了解施工过程中对百姓生活的影响等等。利用 大数据技术 可以充分避免抽样调查中的片面性和随机性,真实的了解民意。
另外,舆情监测在社会情绪分析方面可以起到重要作用。了解人们的情绪波动,对疏导分流不利于社会发展的社会情绪,培育人民积极健康的社会心态有着重要作用。
9. 能否谈一谈,蚁坊软件下步的方向?
目前,蚁坊正在大数据服务、运维和安全治理方面,进行产品的集成和研发,今年内将建成“蚁工厂”大数据服务云的一体化运营平台。也就是说我们能通过“蚁工厂”的运营平台,实时监测大数据服务、网络和主机设备的运行状况,能实时监测大数据平台的安全状况。
另外,我们也希望下一步能有更多外部的应用和业务能够在“蚁工厂”的基础上发展起来,大家一起打造一个良性、互补、共赢的大数据生态圈。
责任编辑:王培