红色预警尚未结束，北京启用机器学习预测空气污染

搜狐科技 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

新智元编译

来源：IEEE Specturm 等

作者：Lucas Laursen

译者：刘小芹

　　 新智元启动新一轮大招聘 ：COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

　　 简历投递：j obs@aiera.com.cn

　　 HR 微信： 13552313024

　　 新智元为COO和执行总编提供最高超百万的年薪激励；为骨干员工提供最完整的培训体系、 高于业界平均水平的工资和奖金。

　　 加盟新智元，与人工智能业界领袖携手改变世界。

　　 【新智元导读】 今年冬天北京启用雾霾预警系统，将传统的大气化学物理模型与机器学习相结合，力求在更短的时间内做出更精确的预测。 12月16日启动的今年首次空气重污染红色预警，预计到12月21日夜间起逐步改善。

　　这几天，北京笼罩在团团浓雾中。12月16日，北京市发布了 2016 年首个雾霾红色预警，这意味着将连续 4 天以上出现重度及以上级别的空气污染。据新闻报道，北京已有 1200 家工厂停工或减少生产。

　　不只是北京，根据 2015 年世界卫生组织的全球疾病负担研究，2015 年大气悬浮颗粒物（不包括烟草烟雾）相当于 1.031 亿失能调整生命年（DALY，衡量人类生命的质量和长度的单位），被列为第六大疾病危险因素。解决大气污染问题成为政府以及企业的重要目标。 据估计， 未来五年空气质量监测市场每年将增长 8.5%，市场规模达到 56.6 亿美元。可以预测，空气质量预测的市场也将增长。

　　今年冬天，在雾霾的预警方面北京政府利用了 IBM 和微软的预测工具，两者都在去年进行过测试。IBM 的工具能够整合来自传统源的数据，例如北京各区域的 35 个官方建设的空气质量监测站，以及成本更低且更广泛的来源，包括环境监测站、交通系统、气象卫星、地形图、经济数据，甚至社交媒体。另一方面，微软的系统整合了来自全国 3000 多个空气质量监测站的数据。 IBM 和微软的工具基于的原理都是将传统的大气化学物理模型与基于数据的统计工具（如机器学习）相结合，目的是在更短的时间内做出更精确的预测。

利用机器学习监测空气污染质量

　　根据北京大学 Xiao Feng 等人 2015 年发表在期刊“Atmospheric Environment”的论文“Artificial neural networks forecasting of PM2.5 pollution using air mass trajectory based geographic model and wavelet transformation”，预测空气质量通常分为确定性方法和统计方法。其中，使用统计方法通常更适合于发现空气污染物浓度和潜在预测因子之间潜在的复杂位点特异性依赖性（Hrust et al.，2009），因此，与确定性方法相比，统计方法建模一般具有更高的准确性。

　　常用的统计方法包括多重线性回归（MLR）、ANN、SVM、模糊逻辑、卡尔曼滤波器和隐马尔可夫模型（HMM）。一些研究认为，人类、气候和空气污染的相互作用太复杂，不能在确定性模型中表示。但是，证据表明，ANN 可以模拟非线性和交互关系取得比较准确的预测结果。尽管如此，ANNs应该与其他模型结合，以克服它们的局限性。

　　 IBM 绿色地平线计划

　　 IBM 中国研究院绿色地平线（Green Horizon）计划的环境工程师黄瑾在接受 IEEE Spectrum 采访时说：“我们的优势，或者说差异，是将所有这些结合在一起。”IBM 的系统预测 3 天空气质量的准确率超过 80%，预测 7 至 10 天的准确率约为 75%。

　　红色预警尚未结束，北京启用机器学习预测空气污染

　　 IBM Air Quality Management System

　　 IBM 的预测工具包括一个用于判断的模拟器，例如判断是否需要关闭处于城市上风的工厂，或者实施交通干预措施。黄瑾说：“该工具能估算每种干预措施带来的污染减排结果和经济上的损失后果。”

　　根据官网介绍， IBM 基于其数据同化和认知建模的独有技术，开发了一个综合的空气质量管理解决方案，包括高分辨率空气质量预测、排放源识别和追溯，以及定量的政策决策支持。该解决方案的关键技术差异性包括：

　　 1. 数据同化： 模型预测误差通常是由于初始条件的不确定性。我们利用数据同化（data assimilation）来尽可能好地组合不同的数据来源，包括地面监测数据、天气数据、排放数据、卫星数据以及地理数据，以估计模型的初始状态（即初始条件），然后获得高准确度的空气质量预测。

　　 2. 基于物理统计整合的认知建模： 空气质量建模具有时间和空间的典型问题。我们利用多种模型，包括 WRF-CHEM，WRF，CMAQ，CAMx 等。由于每个模型实现最佳性能的条件不同（温度、风速、风力、地理条件）等，系统使用自适应机器学习机制来训练这些模型，并且自适应调整每个模型的参数，为每个特定情况选择具有最佳性能的优化模型。

　　 3. 组合的污染源识别技术： 我们结合灵敏度建模、反向/联合变分方法、便携式传感器以及社交媒体分析方法，对污染源进行识别和综合评估，可以满足执法或为长期污染物排放的控制制定战略的需求。

　　 微软城市空气项目

　　根据 IEEE Spectrum 报道，微软与中国环保部合作，提供 48 小时的空气质量预测。2015 年在北京进行的测试显示，6 小时内预测的准确率达到 75%，12 小时的准确率约为 60%。根据介绍，微软采用的方法是：

　　 1. 实时细粒度空气质量分析 该项目的第一步是使用两部分的数据来推断城市任意位置的实时细粒度空气质量。一部分数据是现有空气质量监测站的实时空气质量数据及历史空气质量数据；另一部分数据来自五个附加数据源，包括气象数据、交通流量、人员流动情况、POI、以及道路网络数据。

　　其中，这一技术的核心成果是微软亚洲研究院主管研究员郑宇等人在 KDD2015 获奖论文“

　　 Forecasting Fine-Grained Air Quality Based on Big Data”。在论文中，微软的研究人员提出一种半监督学习方法，基于由两个单独的分类器组成的共同训练框架。一个是基于人工神经网络（ANN）的空间分类器，采用空间相关特征（如 POI 的密度和高速公路的长度）作为输入，为不同地点的空气质量之间的空间相关性建模。另一个是基于线性链条件随机场（CRF）的时间分类器，利用与时间相关的特征（如交通流量和气象），为空气质量的时间依赖性建模。

　　红色预警尚未结束，北京启用机器学习预测空气污染

　　 http://urbanair.msra.cn/

　　 2. 空气质量预测 城市空气项目的第二步是预测空气质量。目标是使用数据驱动的方法，考虑目标监测站以及几百公里内的其他监测站的当前气象数据、天气预报数据、以及空气质量数据，预测在接下来的 48 小时内的空气质量读数。

　　据介绍，微软使用的预测模型包括 4 个主要部件：1）基于线性回归的时间预测器，用以模拟空气质量的局部因素；2）基于神经网络的空间预测器，用以模拟全局因素；3）根据气象数据，组合空间和时间预测器的动态聚合器；4）用于预测空气质量突然变化的变化预测器。

　　测试结果，使用中国 43 个城市的数据评估我们的模型，其结果超过了多种基准方法的结果。微软与中国环境保护部合作部署了一套系统，能够为四个主要城市提供 48 小时内的细粒度空气质量预报。该预报可以每小时更新，并可细化到站点级别的预测。其中前六小时可以做逐小时预报，7-12，12-24，25-48小时做一个最大-最小范围预报。必应地图、 MS 云平台以及 Azure 上也启用了该预测功能。

　　该项目还有更长远的计划，比如部署空气质量监测站点――利用大数据分析的方法，从推理准确度和稳定性最大化的角度，为新建站点选择最佳的位置、确定空气污染物来源，包括研究车辆废气排放和空气质量之间的相关性，以及研究空气污染在不同城市的时空因果关系。

　　 其他方法

　　此外，其他的创业公司（比如 AirVisual）也在为私人商业用途提供利用机器学习增强的空气质量预测。下图展示了该公司所使用的预测系统的工作流程。

　　红色预警尚未结束，北京启用机器学习预测空气污染

　　上文提到的北大论文，也提出了一种新的预测方法，旨在更准确地预测局部 PM2.5 浓度的峰值，这被认为是空气污染预测系统中非常关键的因素。

　　总之，预测空气污染就是使用来自相同信号的历史数据（单变量预测）或几个相关信号的历史数据（多变量预测）预测给定序列的未来的值。

　　如今，针对空气质量（尤其是 PM2.5）的预测数据大多都是使用多变量预测制定的。

　　为了预测污染水平，系统的组成部分通常包括（但不限于）深度学习框架、有助于区污染水平和类别的算法――不过，由于深度学习缺乏表示关系的方法，并且往往很难学会这些关系，因此深度学习只是预测系统的一部分。

　　为了让系统有准确的输出，机器学习算法研究将当前空气质量和当前天气状况，以及与天气预报和历史空气质量相关联的模式。提供给机器学习系统的数据越多，预测就越准确。但难点是调参十分困难和复杂。

　　此外，由于空气污染本身受许多因素的影响，由于这些因素的不可预测性，预测结果也可能会发生错误。

未来技术挑战

　　大气科学家、哥白尼计划大气监测服务主管 Vincent-Henri Peuch 表示，怎样把物理模型和机器学习结合起来以实现最优的空气质量预测是当下活跃的研究领域。他补充说，把两者结合起来正确的选择：两种类型的模型各有优势，不需要排除某一方。到目前为止，市场也证明如此。IBM 现在在新德里和约翰内斯堡也提供组合的模式。

　　 IBM 和微软都在着力将它们的软件推广到其他城市，一方面他们需要集成不同城市的物理模型，另一方面需要调整不同类型的输入数据及变化参数。

　　 根据不列颠哥伦布大学的团队 2016 年的调查发现，每个新的环境可能都需要不同的机器学习算法。 他们的研究发现，几种不同类型的机器学习的成本取决于包含的数据量以及在运算期间输入到程序中的数据量。

　　 对于只有最近几年的历史空气质量数据的一些地方，例如北京，最好的解决方案可能与那些有多年历史数据的城市的方案不同。 这对政府来说是挑战，他们需要为自己的城市选择正确的系统。Peuch 说，假如不在同一个地方使用完全相同的数据集，很难对不同的模型进行比较。

　　参考资料：

http://spectrum.ieee.org/energy/environment/ai-and-big-data-vs-air-pollution
http://www.sciencedirect.com/science/article/pii/S1352231015001491
https://www.research.ibm.com/labs/china/greenhorizon.html
https://www.microsoft.com/en-us/research/project/urban-air/
https://airvisual.com/blog/5-ways-to-respond-to-a-polluted-city-what-type-of-beijinger-are-you

新智元招聘

　　 职位运营总监

职位年薪：36- 50万（工资+奖金）

工作地点：北京-海淀区

所属部门：运营部

汇报对象：COO

下属人数：2人

年龄要求：25 岁至 35 岁

性别要求：不限

工作年限：3 年以上

语言：英语6级（海外留学背景优先）

　　 职位描述

负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作，人工智能及机器人产业方向
擅长开拓市场，并与潜在客户建立良好的人际关系
深度了解人工智能及机器人产业及相关市场状况，随时掌握市场动态
主动协调部门之间项目合作，组织好跨部门间的合作，具备良好的影响力
带领团队完成营业额目标，并监控管理项目状况
负责公司平台运营方面的战略计划、合作计划的制定与实施

　　 岗位要求

大学本科以上学历，硕士优先，要求有较高英语沟通能力
3年以上商务拓展经验，有团队管理经验，熟悉商务部门整体管理工作
对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解
具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力
具备优秀的时间管理、抗压能力和多任务规划统筹执行能力
有广泛的TMT领域人脉资源、有甲方市场部工作经验优先考虑
有媒体广告部、市场部，top20公关公司市场拓展部经验者优先

　　 新智元欢迎有志之士前来面试，更多招聘岗位请访问新智元公众号。