分析1300万起案件 洛杉矶警局如何用算法预测犯罪
洛杉矶警局与加州大学洛杉矶分校合作,采集分析了80年来1300万起犯罪案件,用于进行犯罪行为的大型研究,通过算法预测成功将相关区域的犯罪率降低了36个百分点。
可见,算法不仅仅可以帮助运营人从用户数据挖掘中获得灵感,同样,如果不是简单地分析以往的犯罪规律,而是采用预测式警务的做法,分析人员就可以利用之前犯罪行为表现出来的规律,全神贯注地分析下一个可能发生犯罪行为的地点并重点干预。
10年前,在梳理2.45亿顾客每周生成的海量数据时,沃尔玛公司的数据挖掘算法偶然发现了一条奇怪的信息:在发布恶劣天气预警后,除了管道胶带、啤酒及瓶装水等应急用品以外,草莓酱馅饼需求量的增长幅度最大。为了验证这一发现,在2004年飓风“弗朗西斯”即将袭来的消息发布后,沃尔玛超市的管理者下令用卡车装载家乐氏快餐,运送至可能遭受飓风袭击的地区。结果,这些快餐很快就被抢购一空。通过这个案例,沃尔玛的管理者对消费者的消费习惯及“公式”的威力有了非常清楚的认识。
认识到这个发现具有重要价值的并不仅仅是沃尔玛的管理层。当时,心理学家考林·麦库与洛杉矶警察局长查理·贝克正准备合写一篇论文,并向法律实施方面的杂志《警察局长》投稿。他们以沃尔玛的这个发现为契机,对警务工作进行了再思考,认为其要由反应式向预测式转型。2009年,他们的这篇题为《预测式警务:沃尔玛及亚马逊对打击经济衰退期犯罪行为的启示》的论文一经发表,就立刻引起了美国法律实施专业人士的关注与思考。麦库与贝克所谓的“预测式警务”,是指由于计算机科学的发展,犯罪数据的收集与分析工作有可能做到“准实时”,因此在将来可用于提高预测、预防和响应犯罪行为的效率。借用Quantcast的广告词来形容,这意味着警察可以“提前了解、提前行动”。
目前,与预测式警务联系最紧密的人当属洛杉矶警察局的肖恩·马林诺夫斯基警官。他被指派协助威廉·布拉顿局长的工作,先是当他的助手,后来成为他的参谋长。从此,马林诺夫斯基时来运转。在来到洛杉矶之前,布拉顿在纽约市工作。他只用了几年时间,就将纽约市的犯罪率降低到之前的一半,在警界名声显赫。布拉顿的工作方法很有效率,但也明显不循常规。在到纽约市警察局之前,他还担任过纽约交通警察部门的领导者。在此期间,他首先对逃票行为予以打击,把纽约市地铁系统从一个犯罪案件频发的暴力之地变成了一个遵纪守法、安宁整洁、秩序井然的场所。换句话说,在重大犯罪率创历史最高纪录的时候,布拉顿首先关注的是让人们掏钱买车票。他的理由十分简单。2009年,他在回忆录中说,逃票是导致更严重犯罪行为的根源。布拉顿指出:“合法乘客会认为他们身处一个不讲法律、没有秩序的场所。他们看到人们不买票就能乘车,便开始怀疑遵纪守法是否明智。久而久之,整个社会就会陷入一片混乱。”通过制止并惩处违法行为,甚至连最轻微的犯罪行为也不放过,就会让那些制造麻烦的人明白,最好还是掏钱买票,并且把武器(搜查时通常会被发现)留在家中。因此,犯罪率开始急剧下降。
来到洛杉矶之后,布拉顿希望继续实施某些先发制人的手段。马林诺夫斯基在布莱顿的手下工作了5年,亲眼见证了布拉顿单凭意志力就使一个暮气沉沉的部门发生了种种良性的变化。他说:“如果我们所处的机构官僚主义盛行,我们就会对遇到的各种阻力习以为常,而我们的创造力却会受到限制。布拉顿告诉我不要受到官僚主义的影响,他还教导我要有远大的志向,要有所作为。”
在工作中,布拉顿最迫切期待的是不断出现一些可以带来革命性变化的“奇思妙想”。他认为,预测性分析可以帮助他实现这个愿望。布拉顿发现,犯罪率与数据分析的速度之间存在某种联系。1990年,警察局一年只能完成一次犯罪数据的收集与研究工作,而同一年,美国大多数城市的犯罪率正在急剧攀升。到1995年年底,警察局可以做到每月研究一次犯罪数据,而同期的犯罪率却有所下降。现在,他们可以随时查看犯罪率情况,因此布拉顿希望通过预测可能发生犯罪行为的地点,大幅度降低犯罪率。既然Quantcast和谷歌等公司可以从用户数据挖掘中获得灵感,同样,如果不是简单地分析以往的犯罪规律,而是采用预测式警务的做法,分析人员就可以利用之前犯罪行为表现出来的规律,全神贯注地分析下一个可能发生犯罪行为的地点。用亚马逊的话说:“既然你敢偷手提包,难道你就不敢抢酒庄吗?”
用算法预测并制止犯罪行为
众所周知,在某个具体区域内,犯罪地点并不是随机分布的,而是集中于某些小范围的“热点地区”。比如,西雅图历时14年收集的犯罪数据表明,有一半的犯罪行为都集中在占该市4.5%的街道上。明尼苏达州明尼阿波利斯市的情况也差不多,半数报警电话都来自占该市3.3%的街道。28年间,波士顿市多达66%的街道抢劫案都高度集中于占该市8%的街道。了解这些热点地区以及这些地区可能发生哪些类型的犯罪行为,对城市的警力部署具有非常重要的参考价值。
例如,假设在我们当地的白鹿酒吧门口,每周六晚上都有人因实施人身侵害行为而被捕。如果我们可以证明这个假设是正确的,那么不难预测以后的周六晚上在同一地点还会发生类似的行为。因此,派一名警官到那里执勤,就可以预防此类恶性事件再次发生。
在发现了上述特征之后,布拉顿局长请肖恩·马林诺夫斯基协助他做这件事。在接受布拉顿的建议之后,马林诺夫斯基每个周五下午都会开车去加州大学洛杉矶分校,与该校数学系与计算机科学系的人碰头。洛杉矶警察局同意提供犯罪统计数据集(该数据集非常庞大,收集了80年来约1 300万起犯罪案件的相关数据),用于进行犯罪行为的大型研究。马林诺夫斯基非常享受与加州大学洛杉矶分校的研究人员一起合作的这段经历。10年前,他在查处酒驾任务中与警察的第一次合作使他对警务工作产生了兴趣,而在这次与计算机科学家的合作中,他们梳理数据、寻找规律,并试图建立某些公式的研究工作,再一次吸引了他。
马林诺夫斯基回忆说:“我非常喜欢那段经历。”当时,一位数学家兼计算机科学家的研究让他产生了浓厚的兴趣。这位二十四五岁的年轻人名叫乔治·莫勒,当时正在研究一个用于预测地震危害的算法。在刚听到莫勒的研究领域时,马林诺夫斯基以为这与他们当时的研究关系不大,但后来他发现自己错了。地震会导致余震,而犯罪行为也有同样的特点。在发生入室盗窃或汽车失窃案之后,短时间内同一地点发生类似犯罪行为的可能性会增至之前的4~12倍。这种传染作用叫作“邻近重复”(nearrepeat)效应。莫勒解释说:“抢劫犯常常会在一周后再次潜入同一住户或邻近住户的家中作案。”加州大学洛杉矶分校的研究小组借鉴了莫勒地震研究的某些成功做法,在人类学家杰夫·布兰汀汉姆与犯罪学家乔治·蒂塔的帮助下,建立了一个犯罪预测算法。他们把洛杉矶市分成单位面积约为0.15平方公里的一个个“方块区”,然后按照犯罪行为发生的可能性为这些方块区排序。
2011年11月,他们利用该算法开展了一次为期三个月的随机研究。在当天的“巡逻待命通知”中,马林诺夫斯基一开始就明确宣布:“今天是一个历史性的日子。”他所在的富特希尔区有拉图那峡谷、湖景露台、帕克伊马、影子山、太阳谷、桑兰以及图洪加7个主要的巡逻区,被分成共计5 200个方块区。在当天早晨点名时,富特希尔区的每个巡逻警察都收到一份任务地图,每张地图上都清楚地标示出一个或多个方块区,表明这些地区是犯罪发生“可能性高”的区域。图上还附有犯罪类型的统计学预测。马林诺夫斯基告诉他们:“只要你们有时间,就深入这些方块区巡逻,找出那些可能会采取犯罪行为的人或预示着可能会发生犯罪案件的状况,并采取强制或预防措施,避免犯罪案件发生。”
这次实验一直持续到第二年的2月。次月,他们对实验结果进行了评估,并就是否推广这项技术形成了结论。分析显示,这项实验取得了非常显著的成果。实验期间,富特希尔区的犯罪率下降了36个百分点。在利用算法为巡逻队下达指令的那些天里,算法预测犯罪行为的准确程度是分析人员的两倍。乔治·莫勒说:“造成这个结果的原因之一是,人脑无法准确地为全市20个热点地区排序。也许人脑可以找出排在前两位的热点地区,但是排完前6位或前7位之后,剩下的只能胡乱猜测了。”
这项技术在推广之初并非一帆风顺,其中大部分阻力来自马林诺夫斯基手下的那些警察。他承认:“的确,有的警察认为自己不需要计算机来告诉他们哪里有可能会发生犯罪行为。很多家伙都抵制这种做法,即使告诉他们计算机的预测结果,他们也会说:‘我早就知道范纳伊斯与格伦奥克斯的交界处是一个麻烦之地。’于是我问他们:‘这个地方一直让我们头疼,对吗?那你们在这里工作多久了?’他们说:‘我们在这个地方已经工作10年了。’我接着说:‘既然10年前你们就知道这个事实,为什么这个问题至今没有解决呢?别废话了,赶紧去那里把这个问题解决掉。’”
在富特希尔区的研究结束之后,警务算法被推广到洛杉矶的所有辖区。美国其他城市的警察局现在也采用了其他类似的算法。马林诺夫斯基说,他仍然觉得自己要为手下的警员负责,但在部署警力方面却不再事事躬亲,而是习惯于逐渐放手。他指出:“在管理时必须为算法留一点儿空间,让其发挥作用。”与此同时,布拉顿已经从洛杉矶警察局退休了。在2011年英格兰发生暴乱之后,卡梅伦邀请他到英国就任伦敦首都警察局局长。但是,由于布拉顿不是英国公民,这项提议最终没有获得通过。后来,他被邀请担任英国暴力管控方面的顾问,布拉顿欣然接受了。
加州大学洛杉矶分校的研究小组在完成了他们的算法之后,还筹集了几百万美元的风险基金,成立了一家名叫“PredPol”的私营公司。2012年12月,PredPol登陆英国,在肯特郡的梅德韦市进行了为期4个月、营业额达12.5万英镑的试营业。在这次试营业期间,由于采用了这种算法,该市街道暴力案件的发生率下降了6个百分点。目前,大曼彻斯特、西约克郡以及英国中部地区已经采用了类似的做法,而且效果也很乐观。尽管有的地方议员担心预测式分析可能会导致农村地区的警力不足,也有人担心这会导致失业率上升,但其他议员认为这种创新性软件能够提高资源的利用效率。
马林诺夫斯基认为,预测式警务的任务不仅仅是将犯罪分子绳之以法,“我们的目的是让警员在合适的时间出现在合适的地点。这样,那些准备干坏事的家伙一出现,就会看到有警察在场,受到震慑后不敢再作案”。最后,马林诺夫斯基以超市的情况做出了类比:“我们就像沃尔玛超市里的迎宾员,目的是让人们知道有人正在看着他们。”
犯罪统计学和道德统计学
将统计学知识应用于犯罪学似乎是一个创新之举,但实际上,这种做法可以追溯至19世纪的法国,以及安德烈–米歇尔·盖里和阿道夫·凯特莱这两个人。盖里与凯特莱都是半路出家的杰出统计学家。盖里之前从事的是法律方面的工作,而凯特莱则从事天文学研究,两人都受到了奥古斯特·孔德的深远影响。1817~1823年,孔德完成了一篇题为“社会重组所必需的科学工作计划”的文章。这篇文章指出,在判断如何管理社会时,最理想的方法是沿用自然科学的方法来研究这个社会。孔德认为,艾萨克·牛顿通过研究成功地表述了作用力对物体的影响,同样,社会科学家也可以通过研究发现“社会物理学”的定律,用于预测人类的行为。
孔德的这个观点引起了盖里与凯特莱的极大兴趣。这两个人有一个共同特点,他们都对犯罪学等领域感兴趣。盖里受雇于法国司法部,在一个叫作“道德统计”的新领域就职,当时他只有26岁。而凯特莱则一心想着如何将天文学的数学工具应用到犯罪数据的处理上。他认为:
我们之所以可以建立道德统计学并由此产生有指导性的、有意义的成果,就是基于这样一个基本事实:在对象非常多时,人们的自由选择权就会消失不见,人们也会丧失理智。
盖里与凯特莱所处的年代可以被称作大数据的第一个“黄金时代”,生活在这样一个时代,让他们受益匪浅。从1825年起,法国司法部下令建立全国犯罪案件集中报告制度,每三个月收集一次各地区的犯罪数据,其中包括提交至法国所有法院的全部刑事案件;还要将犯罪行为按照指控罪名、被告的性别及职业、法院最终判决结果等进行分类。国家集中管理的数据集还包括个人财富(根据缴税情况)、企业经营水平(根据获批的专利数量)、军队中有读写能力的人员比例、全国范围内的移民及年龄分布等统计数据,甚至还包括巴黎卖淫者的详细名单(按出生年份与出生地排序)。
19世纪20年代末30年代初,盖里与凯特莱利用他们可以获取的数据,各自开展了独立研究。他们很快就发现了一个现象:每年的犯罪行为特点没有任何变化。这个现象对于社会改革而言意义重大,因为改革者们之前关注的是如何拯救那些罪犯,而不是把他们看作更严重的社会问题的表征。凯特莱指出,“犯罪行为正在准确无误地进行自我复制”,而且这种行为的精度达到令人吃惊的程度。他的意思是,通过枪支、刀剑、棍棒、石头、火、勒死、溺亡、拳打脚踢以及各种利器实施的谋杀案比例,几乎年年都保持在同一水平上。凯特莱明确指出:“我们事先就知道有多少人的双手会沾上别人的鲜血,有多少人会造假,有多少人会锒铛入狱,而且可以达到与预测出生及死亡人口差不多的精度。”盖里也惊讶地发现了“犯罪行为自我复制的稳定性、一致性”,并从中看到有大量事实可以证明孔德的社会物理学理论是正确的。从这些没有经过筛选的数据噪声中,他洞察到有某种信号若隐若现。
关于这两位学者的研究,有不少非常有意思的趣闻。例如,凯特莱发现,在上吊自杀与老夫少妻的婚姻(妻子20多岁而丈夫60多岁)之间存在高于平常水平的相关性。盖里也不甘示弱,他同样把研究的目光投向了自杀(并根据自杀的动机与手段进行了细分)。他的结论是:年轻男性喜欢用手枪自杀,而年长的男性倾向于用上吊的方式来结束自己的生命。
但是,其他的关系就没这么简单了。之前,人们普遍认为贫穷是导致犯罪的最大原因,这种观点意味着法国富裕地区的犯罪率肯定比贫困地区低。结果,盖里与凯特莱证明了这种观点未必正确。尽管法国几个最富裕地区的暴力犯罪率低于较贫穷的地区,但这些地区的财物犯罪率却高得多。根据这个观察结果,盖里指出,贫穷本身并不是导致财物犯罪的原因。他认为,富裕地区可以盗窃的财物比较多,因此犯罪机会才是罪魁祸首。根据这个观点,凯特莱提出了“相对贫穷”的概念,并指出同一地区贫富差别较大是导致财物犯罪与暴力犯罪的关键原因。凯特莱认为,相对贫穷会激起嫉妒之心,诱使人们犯罪。尤其当经济状况发生变化时,有人会因此陷入贫困,其他人却可以保持(甚至增加)他们的财富,相对贫穷特别容易诱发犯罪。凯特莱发现,只要贫穷地区的人的基本需求能够得到满足,这些地区的犯罪率就会低于富裕地区。
1832年,盖里出版了他的研究成果,并将这本薄薄的小册子命名为“论法国的道德统计”。三年后,凯特莱也出版了自己的著作《论人及其才能的发展》。这两部著作出版后便引起了轰动。一度晦涩难懂的学术研究竟然激发了公众的无穷想象,这样的例子确实不可多得。两个人的作品被翻译成多种语言,人们纷纷发表评论。《威斯特敏斯特评论》(约翰·穆勒与杰里米·边沁这两位功利主义哲学家创办的英语杂志)用大量篇幅赞扬盖里的这本书具有“显著的影响力与重要性”。查尔斯·达尔文阅读了凯特莱的著作,陀思妥耶夫斯基通读了两遍,身为社会改革家的弗洛伦斯·南丁格尔则在凯特莱研究成果的基础上提出了自己的统计方法。后来,她热情洋溢地称赞凯特莱的研究成果“为我们带来了实现道德进步的准则”。
盖里的开创性成果,显示了1829年法国的犯罪率水平。左上图表示暴力犯罪的情况,右上图表示财物犯罪的情况,位于下方的图表示教育水平。在每幅图中,某一区域的颜色越深,表明该区域的犯罪率越高或者教育水平越低。
总的来说,盖里与凯特莱的研究表明,人类不再把自己看作一种自由意志的自决生物,可以随心所欲、自行其是,而是认识到人类的行为要受到生物及文化因素的决定性影响。
换言之,我们的行为具有可预测性。
via:大数据文摘
End.