中国自动驾驶补完计划:这款 AI 芯片为何如此重要?
来源:极客公园 作者:李昊原
「今天,对于中国自动驾驶事业来说是一个特别的日子。」
8 月 30 日的上午,地平线创始人 &CEO 余凯,用这句宣告,开始了自己的演讲。
地平线创始人 &CEO 余凯 | 图片来源:地平线
此时 2019 年刚好走过了三分之二,数年前,业界曾预期 2020 年前后,自动驾驶将迎来大规模的商用, 汽车 厂商、自动驾驶 创业 者和上下游产业,多将其视为关键的时间节点。而今,即使是乐观人士,对此的预期也会再往后延迟数年。至少在余凯看来,当前自动驾驶的主流还在 L2 阶段,即使是 L3 阶段的辅助驾驶,真正大规模实施也将在 2024 年之后。
造成发展滞后预期的重要原因,还是产业过于庞大,人们总会在发展过程中发现新的问题和机遇,就像用石头填满杯子后,会发现还可以继续装沙子、石灰和水,而杯子本身还在不断扩容。这并不意味着绝望,而是意味着更大的市场,工业时代汽车产业曾改变了世界,今天,人类在出行行业上投入越多,就将从未来获益更多。谷歌母公司旗下的自动驾驶公司 Waymo 估值已超过 1750 亿美元,将老牌的通用、福特等车企的市值远远甩到了身后。在中国,对出行行业的变革已经上升到国家战略级别,新能源、自动驾驶和车联网一直是资本追逐的热点。
这个过程中,出现了许多明星公司。仅国内就有造车的蔚来、小鹏、威马,自动驾驶领域的图森未来、驭势 科技 、文远知行,专注高精度地图的四维图新、高德,甚至还有激光雷达厂商禾赛、速腾聚创、北科天绘等等,而估值已经超过 30 亿美元的地平线,在中国自动驾驶事业中,又处于怎样的位置呢?
四个轮子的计算机
汽车从最初的代步工具,到可以联网、人机交互甚至自动驾驶,在变得越来越智能。一个可预期的未来是,汽车的发展将会贴近曾经 PC 计算机和智能 手机 的轨迹,我们讨论车辆的性能,也从机械的性能基础转变为更多的考虑智能化的便捷性。
这一点在车载的计算需求量上有所呈现。目前汽车多是采用分布式 ECU 架构的小型处理器来处理简单任务,随着车联网、自动驾驶对计算性能要求的提升,余凯认为,车载计算将会演进到域控制器,吞吐更多的数据,执行更多的智能决策,汽车最终变成一台有四个轮子的计算机。他预计到 2025 年,这一趋势就会带来汽车成本结构翻天覆地的变化,计算平台以及软件的成本占比将大幅提升。
对于 PC 和手机,眼下可见的竞争局面是,在其他属性趋同的前提下,计算——甚至更进一步——负责计算的芯片,将成为附加价值最高,也是最核心的部件之一。在车载环境下,除了自动驾驶和车联网所需要的计算,司机在驾驶过程中,通过语音识别、唇语识别进行人机交互,通过人脸识别、眼球追踪进行防疲劳检测都是颇有前景的应用,而这些应用都离不开算力更强的车载芯片。
不过遗憾的是,谈芯容易造芯难。不同于一般的半导体或者消费级芯片,车载芯片的工作环境要更为严苛,比如温度上,要考虑零下 40 度到 125 的极端情况;在使用寿命上,汽车的寿命一般在 10 年以上,芯片就要满足 15-20 年的运行。地平线上海研发中心的总经理吴征告诉记者,车规级半导体芯片对可靠性的要求,要满足 AEC-Q100 芯片开发、验证、流片、封装、测试的全流程,包括高低温测试、老化测试以及压力测试。
其次是对质量体系的要求很高。智能汽车不同于传统汽车,电子系统出故障是难以避免的,但如果像电脑、手机一样卡机,结果可能不只是故障,而是事故。真正的车规级半导体要满足 ISO/TS16949(汽车行业质量管理体系标准)、ISO26262(汽车功能安全标准)、ISO21448(预期功能安全)还有网络安全。「我重点讲一下功能安全,功能安全是指怎样尽可能减少由于失效造成的安全问题,比如半导体由于老化效应或由于辐射突然出错了,或是系统软件运行出现问题。」吴征说,在地平线整个开发过程中,无论是芯片、软件开发还是系统开发,都遵从 ISO26262 的规范。
当然,最重要的还是性能,驾驶中对人工智能计算的反应要求达到毫秒级,车载环境下,庞大的数据吞吐量,需要强悍的计算平台资源,另一方面又要求计算的能耗较低,避免电量消耗过多,和造成封闭环境温度过高,最后,整体的成本还有控制好。
一款车规级的人工智能处理器,从研发到产品导入,首先要经过 18 到 24 个月的设计阶段,包括构架、后端、流片设计,然后是车规级系统的验证,包括方案测试(AEC-Q100 认证),包括基线条件的温度、湿度、工况环境、系统表现,还包括功能安全(ISO26262),还包括系统软件开发,工作量可能是硬件开发的几倍以上。到了这一步,只是站到了 商业 化的起跑线上,真正商业化还需要找到汽车企业客户,然后定点车型,完成整车集成的测试开发后才能量产销售——在市场还没有成熟的时候,技术和商业上的问题都并不简单。
「押宝」,这是很多人对做车规级芯片的看法。在昨天之前,我国还没有量产的车规级 AI 芯片,余凯在演讲中说:「此次地平线率先推出首款车规级 AI 芯片,不仅实现了中国车规级 AI 芯片量产零的突破,也补齐了国内自动驾驶产业生态建设的关键环节。」
押宝百万量产车的征程二代(Journey2)
2015 年,余凯告别百度深度学习研究院院长的职务,创办了地平线。和目前市面上大部分从国外公司购买人工智能 IP 的国产 AI 芯片不同,地平线在早期就注册了高性能计算架构 BPU(Brain Processing Unit)的商标,2017 年的 CES 上,地平线与英特尔联合发布了基于地平线 BPU 架构的高级辅助驾驶系统,随后地平线拿到了英特尔等机构超过 1 亿美元的 A+ 轮融资。
2018 年,地平线发布了「征程」系列处理器和「旭日」系列处理,并大规模用于智能驾驶和 AIoT 边缘计算等领域,而在昨天宣布量产的「征程二代」AI 芯片,可以看作是地平线在车规级计算平台和芯片架构方面取得的突破性进展。据了解,今年年初征程二代就流片成功,并完成芯片功能性和稳定性测试、系统软件开发和稳定性调试,支持客户进行产品设计的开发套件也已就绪。
看芯片,最直观的就是看参数。从地平线发布的资料来看,征程二代搭载了地平线 BPU2.0,具备极高的算力利用率,可提供超过 4 TOPS 的等效算力,每 TOPS AI 能力输出可达同等算力 GPU 的 10 倍以上,而典型功耗仅 2 瓦。
地平线征程二代技术参数 | 图片来源:地平线
在应用场景上,征程二代能够对多类目标进行实时检测和精准识别,并提供高精度且低延迟的感知输出,可满足自动驾驶视觉感知、视觉建图定位、视觉 ADAS 等智能驾驶场景的需求,以及语音识别,眼球跟踪,手势识别等智能人机交互的功能需求。「我们可以同时跑超过 60 个分类任务,每秒钟识别目标数可以超过 2000 个。」余凯说。
地平线征程二代芯片视觉感知方案 | 图片来源:地平线
在开放性上,征程二代提供从参考解决方案,到开放的感知结果,再到芯片及工具链的基础开发环境,并可依据客户的不同需求提供不同层次的产品交付和服务。当天地平线发布了 AI 芯片工具链 Horizon OpenExplorer(天工开物),包含面向实际场景进行 AI 算法和应用开发的全套工具。
余凯在现场宣布,目前征程二代已经拿到五个国家的市场客户的前装的定点,最早的量产车型在 2020 年上半年就会向客户和消费者见面,量产车型预计近百万。
从地平线到山巅
就像自动驾驶将经历从 L2-L5 的进程,主要针对 L2 阶段设计的征程二代,显然也只是进程中的一个节点。在 B 轮 6 亿美元融资后,地平线估值已经超过 30 亿美元, 投资 方除了英特尔、海力士这样的半导体巨头,还有数家车企及其旗下投资公司,显然,传统汽车企业对智能驾驶的未来也和科技公司形成了更多的共识。
地平线不再遥不可及,技术路线更清晰后,研发和商业化的进程更像是在攀爬山峰。吴征首次对外公布的征程系列车规级芯片研发路线图,就用攀登路线做背景。地平线的 BPU,是其车规级 AI 处理器的核心,在芯片性能从单路 1080p 到 4K,再到 12x4K 识别处理,地平线 BPU 也在不断演化。预计 2020 年,继 Journey2 之后,地平线还将发布 16 纳米的 Journey2A,而更重要的,吴征透露,目前地平线正在全力开发搭载 BPU3.0 的「征程三代」车规级 AI 芯片。
地平线车规级征程芯片研发路线 | 图片来源:地平线
据称,征程三代的性能将达到预控制级 L3,预计将在 2020 年正式推出。「这是一款针对自动驾驶场景,包括域控制器而研发的新一代车规级 SoC,是由 BPU、CPU 等处理器组合完成的异构计算的复杂的 SoC,CPU 与 CV 对接,某种情况下提供系统对接和控制处理器,整个 SoC 可以多达 8 路以上的视频输入,而且可以支持 4K,会满足 60 毫秒(延迟),我们会把整个架构包括数据通路做一个优化,最后达到一个极好的效果。」
而再下一代的征程三代 Max ( Journey3Max ) ,目前也已经在规划中,吴征预测,Journey3Max 会采用更先进的工艺,可能达到 7 纳米,支持多达 12 路,算力 100TOPS,达到 C 或 D 的芯片等级,并将能耗限制在 25 瓦以内,成为针对 L4、L4plus 的高性能车规级处理器。
在地平线的计划中,不只是芯片等硬件,软件及生态同样重要。当日余凯还宣布,推出面向 ADAS 市场的征程二代视觉感知方案;地平线自动驾驶计算平台 Matrix 在今年已经获得上千的订单,并拿下美国 CES 创新大奖,而性能更强大、可覆盖不同等级自动驾驶需求的新一代 Matrix,也将于 2020 年正式上市。
地平线 Matrix 二代自动驾驶计算平台 | 图片来源:地平线
据了解,基于地平线征程二代的视觉感知解决方案,可在低于 100 毫秒的延迟下实现多达 24 大类的物体检测以及上百种的物体识别,每帧高达 60 个目标及其特征的准确感知与输出;而全新的 Matrix,基于同样在 2020 年发布的征程三代芯片,算力将达到 192 TOPS,较上一代提升 16 倍,而功耗仅为 2/3。余凯将其和上半年特斯拉推出的自动驾驶平台的算力进行了对比,称特斯拉车载计算平台实际上真正能够用于车载计算的是 72TOPS,而地平线的 192TOPS 全部用于做计算,两者有将近三倍车载人工智能算力的差异。「到 2025 年,我们会推动车载人工智能计算平台算力达到 1000TOPS,这是会一个标志性的象征。为什么呢?因为 1000TOPS 是人类大脑的水平,我们认为,要真正实现无人驾驶,算力规模应该达到 1000TOPS。」对于曾经「押宝」成功多次的地平线来说,这将是一个更明确清晰的路径目标。
对中国的自动驾驶事业来说,那将会是另一个特别的日子。