关于公安大数据的“冷思考”和这些年所谓的大数据历程

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

导读:本文作者受邀参加了湖北省公安厅举办的公安大数据论坛,在临讲前一天,获知有很多基层具体做事的兄弟来参会(第二天都要参加一个全省的数据管理员培训班),觉得讲些大路货给他们听有点过意不去,因此推掉当晚应酬一个人呆在房间好好地把公安行业大数据这些年的过往理了一遍,做成了一个很简短的六页PPT(一页封面,一页目录,一页封底,真正的内容只有三页),第二天讲了二十多分钟,现作者根据回忆略微整理成稿。从媒体角度看,本文非常接地气,深入当前公安行业用户所面临的“大数据”一线现实情况,有问题、有思考、有方向、有思路。建议当前围绕公安行业推动视频 大数据应用 的安防厂商和集成商企业人员认真研读,也建议各省市公安主管部门人员研读和思考。

关于公安大数据的“冷思考”和这些年所谓的大数据历程

南京世纪桥软件 CEO 李伟

前面已经有几位专家讲了大数据的技术,还有一些解决方案,但我今天不想和大家谈技术,因为公安大大数据应用,肯定是一些成熟技术在这一行业的应用,如果需要进行底层技术的革新,就公安行业目前现状肯定是玩不了这个,刚刚小艾跟我聊天说了一句很经典的话:每一次公安行业的革新都是起源于技术,寄希望单靠技术就能够把工作翻个身,但是,最后的结果往往也是死于技术,或者说被所谓的技术给玩死了。

我在公安机关管了十多年的行业软件研发和推广应用,现在又转身成为一个软件公司负责人,可以不夸张的讲,在在座的各位老总里,我可能是最清楚公安业务的,我是从派出所民警一天天干起来的,在在座的各位公安科信部门的负责同志里,我可能又是最清楚软件如何落地应用以及商业推广模式的,因此,从我跨界这一角度看公安大数据,我经常说的就是我们一定要很清醒,很冷静。所以我为今天的演讲定了一个题——大数据的“冷思考”?

为何要说冷思考,因为大数据这段时间已经炒热到了极点,但是,炒概念的要远远多于落地能发挥实际作用的,因此,我们是不是要冷静一点,看看大数据到底能给我们带来什么?今天主要跟大家交流三个方面的内容:一是对近些年本人参与的所谓的“大数据”的实践进行一个简要回顾;二是谈谈我眼里的大数据现状;三是针对公安行业交流一些数据应用及发展方向的思考。

这些年所谓的“大数据”历程

为什么叫“所谓”,因为我自己心里很清楚,从2011年开始从12亿的车辆卡口数据中排查“套牌车”,到目前在想用算法来计算某类犯罪的发展趋势,所接触的,所使用的数据准确点讲应该是“动态的海量结构化数据”。至少跟我心目中的“大数据”还有很大的差距。为什么要做这样一个回顾,说白了,怕大家认为我是个光说不练的江湖骗子。

第一个案例,套牌车排查。就是在12亿的卡口数据中找出了三百四十五个车牌,这些车牌符合一个特征,五分钟之内在相距十公里以上的卡口被电子警察都拍到了。这是我第一次用HADOOP来进行数据预处理和分析,这是在2011年初。

第二个案例,在2012年的夏天,我忽然想看一看,坏人们登记住旅馆有没有规律,因此我找来了在押人员数据,汇聚了大约5个多亿的旅馆数据,同样用了“HADOOP+ORCLE”的套路,发现有盗窃前科的坏人都喜欢在半夜2点和凌晨六七点去开房,而且是19岁到23岁为主,还更倾向于床位数在50个以下的中低档旅馆,等等。

第三个案例,是特殊人员的监控。同样是通过车辆轨迹,判断人员的相应状态,因为这个话题比较敏感,就不详细跟大家阐述了。

第四个案例,我把它称为“流窜车”排查,简单讲就是基于存储在异地的海量数据,进行分布式的交叉比对,目标是找出发案前后1小时在A市活动的车辆,同时在4小时前后该车又在B、C等市活动,如果这些车辆的涉车人员为此类案件前科,那流窜犯罪的概率就相当大了。

以上就是前期做的一些工作,其实回顾起来也没有什么感到特别值得骄傲的,如果说这些年我们参与大数据这项工作还有那么一点点骄傲的话,那就是在这个过程中,包括一些争论中,我们逐步形成了一些行业大数据应用的思路、理念,甚至一些看起来都有点不着边际的想法。

我眼中的“大数据”现状

本人比较喜欢古诗,最近经常和我儿子一起背唐诗,我就用四句古诗来形容一下我们所面临的“大数据”现状:

第一句:天街小雨润如酥,草色遥看近却无。这是我用来形容目前大数据的整个大环境的。“天街”是什么?是京城!京城的小雨非常滋润对不对,非常美丽,国家出台的大数据发展纲要,各个部委办局都很积极,昨天在飞机上还在拜读环保部的大数据方案,但是,这些只能远观不能亵玩,落到地面,落到基层,却只能是“近却无”的感觉,为什么?缺少具体的实施方案,缺少具体的落地案例,应用层没有享受到大数据能带来什么好处,只是听到一片关于大数据的呼声。最近微信圈里都在转一篇文章,发展大数据不要一味追求数据规模大,要“应用为先”,这是李国杰院士写的。大家想一想,只要是搞IT,搞软件的都知道,我们要以应用需求为导向,这是搞软件的最基本常识,但是这个常识现在需要一个院士来呼吁,可想我们所面临的现状有多么尴尬,多么的不正常。

第二句:白发三千丈,缘愁似个长。这是我用来形容公安行业的,三千丈很长很长,诗人用了夸张的手法,公安行业的数据也在用这个手法,经常看到一个地市的汇报材料就在说,我们有两百多亿条数据,甚至可以精确到个位。且不论到底有没有这么多数据,你先能不能告诉我这个Oracle 11g的OCP,你是用什么方法把数据的条数最后累加到百亿量级的,还是过一段时间加一点来估算估算的?所以,公安行业的数据现状并不是非常的乐观,所以我们会看到一些有见识的领导在发愁,一面号称公安部门是坐在数据金矿上,但一面心底缘愁真的似个长。

第三句:我本将心向明月,奈何明月照沟渠。这是一句很有意思的诗,念到这首诗我就会想起《天下无贼》的那个桥段。这句是用来形容目前公安行业的数据管理现状的,我们经常讲,信息化是三分建设,七分应用,十分管理,十二分的数据质量。这句诗就跟后两者有关系,上级管理部门的出发点肯定都是好的,建系统,推应用,推不动怎么办?最有用的一招就是出台考核办法,不考核大家不干,但是一考核大家就开始乱干。目前公安机关的可信的数据有多少,我经常会举起一只手,非常夸张的说,不超过一只手,110报警是真的,这是老百姓打过来的,在押人员是真的,这个做假自己是也要被关进去的,还有多少数据是真实的,我们的巡逻盘查数据真实吗?暂住人口数据能反应真实的暂住人口情况吗?还有案件数据能说明社会面发案情况吗?不能!所以说,明月最后大部分都照到沟渠里去了。

第四句:竹外桃花三两枝,春江水暖鸭先知。前面三句把我们当前面临的形势说得都很悲观,第四句要涨一涨士气,当前在大数据应用的方向上,我们很多地方已经开始了积极探索的步伐。像部里的云搜索,还有那个国家啥平台,包括一些省厅,市局,都已经在开始试水大数据应用,在所有的这些探索中,我最关心的就是打击违法犯罪这一方向,群众看公安,关键看破案,公安信息化,公安大数据,首要是要解决破案问题,连坏人都不去搞,都搞不定,天天喊互联网+有什么用,天天喊为民服务有什么用,那是本末倒置。所以,从前面试水的几个案例看,也是在朝着打击违法犯罪的方向去发展。这一切都表明,公安行业的大数据春天已经来临。但是这个春天不是我们坐等能等来的,需要一批人去思考,去探索,就像刘禹锡那句诗,千淘万漉虽辛苦,吹尽狂沙始到金……

大数据下一步发展方向的思考:

第一、以应用为导向。公安行业的大数据应用不是搞底层研发,是要解决实际问题, 大数据 在公安行业现实的应用场景到底有哪些,这是我们要好好思考的问题。结合前期实践认为,个人认为至少目前三个方向是可行的,一是规律总结,二是人物刻画,三是趋势预判。这个分类可能不是很合理,可能有交叉的地方,但是,这三个方面是具备实践条件的(具体案例略)

第二、关于数据以及来源问题。这个问题非常关键,大数据没有可信的数据支撑,就会精确误导,靠考核,靠层级压迫,靠搞大规模会战去搞数据,显然是不能满足大数据应用的需要的。

目前我们具备大数据特征的数据有

1、“人车物”轨迹,时间、空间与实体形成动态轨迹,这些是很好的大数据源头;

2、行为日志,这个与系统日志,数据库日志有相同之处,但又不完全相同,举个例子,我最近做了个基于手机的考试系统,十道题,是可以自己在家做的,因此所有人交上来都是满分,但是,我记录了两道题之间的时间,结果我发现第三题有80%的人都等待了一分钟以上,而其余的题都点得很快,虽然所有的人第三题结果都是对的,但是我告诉负责培训的同志,第三题是薄弱环节,很多人需要强化这方面的知识培训。这就是行为日志的作用。

3、音视频,这个就不用多说了。

4、传感器,没有传感器的大规模应用,就不要谈啥大数据,这是我很久以前就说的观点。

5、社会民众参与。这一点很多人都没有觉醒过来,公安行业玩大数据,不能光靠自己的力量,要学会打人民群众的汪洋大海战争,找到社会公众、包括其他单位部门的利益驱动点,发动大家来参与,围绕数据做文章,特别是学会跨领域使用数据。(几个案例略),关于大数据应用的数据来源问题,我还是用一句诗来形容吧,大数据背景下的数据,都是那种带有“随风潜入夜,润物细无声”特征的。

第三、关于智库的共建与共享。发动公众参与的过程中,大家都会产生一些创意,我们要把这些创意集中起来建库管理,要进行归类、分析、优化、整合,最终形成大数据应用的一个知识库(智库),这个知识库是开放式的,大家可以去共享,可以去评价,去推荐的。(案例略)

第四、关于工具手段支撑。最关键的几个,简单算法在公安行业的落地,当前所谓的大数据应用要成功,肯定首先是“海量数据+简单算法”的成功,这是一个目前已经证实的可行套路,大数据应用在业务逻辑层面不要去想得太复杂。基于大数据的建模工具,这个就不多说了,我也一直在做这个事情,其中重点包括数据资源组织与预处理、分布式计算、流式计算等内容。还有就是模型的标准化,这个也不是一句话两句话能讲清楚的,大致意思就是大数据的模型一定要做到可复制,可扩展,可移植,这样才有应用的生命力。

最后,强调一下整体的数据管理架构。我眼中的大数据应用的整体架构,应该是一个“混搭”型模式,从最底层的,数量最多的非结构化数据,到中间层的半结构化数据,再到顶层的结构化数据,分别有不同的工具、不同的方式来处理。但一条主线就是努力使更多的非结构化数据往结构化数据的方向走,这也是人类社会依托计算机这一工具来认识世界、理解世界的一条必由之途。

最后,用我和业界一位大哥级人物的对话结束今天的分享。这位大哥说:当哪一天公安机关不谈到大数据的“大”字时,这个行业就真正理解了大数据。我说:现在我是个商人,当商人不谈到钱的时候,他就开始赚大钱了。谢谢大家。

作者:南京世纪桥软件系统工程有限公司CEO 李伟

责任编辑:王培

随意打赏

提交建议
微信扫一扫,分享给好友吧。