无人驾驶、大数据VS算法哪个更重要?

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

  无人驾驶汽车上主要的传感器:激光雷达、摄像、毫米波雷达、GPS、超声波雷达和车轮转角传感器等。ElonMusk曾经在公开场合多次说过,不用激光雷达只用摄像头,也能实现Level4以上的无人驾驶。这么说其实是有商业化方面的考虑。

特斯拉的汽车已经在售,卖出去的车只能更新软件,肯定不能换硬件,比如全部重新装上激光09 雷达(不然特斯拉也不会说在产的特斯拉汽车会换上新的硬件系统了)。

况且,Google无人车用的64线Velodyne激光雷达本身的价格高达75000美元,这几乎和低配版特斯拉在美售价差不多了。

特斯拉的车要卖得好必须控制成本,Google的无人车目前还只是处于测试阶段,几百辆的规模当然可以什么好用用什么,相比于特斯拉几万的产销量,花不了多少钱。

去年5月7日,美国佛罗里达州的一位特斯拉车主在使用Autopilot时发生车祸,最终不幸生亡。由此还导致给特斯拉提供计算机视觉技术的Mobileye创始人AmnonShashua与ElonMusk之间的口水战,双方最终不幸闹掰——Mobileye宣布:与特斯拉合同结束后不再继续合作。

在9月11日发布的Autopilot8.0版本中,特斯拉把毫米波雷达采集到的数据作为了控制系统判断的主要依据,而不是之前Mobileye的摄像头。

说起5月份的车祸,其实在车祸发生前,特斯拉的毫米波雷达已经感知到有障碍物,但是摄像头因光线的问题,没有准确识别蓝天白云背景下的大货车,最后导致车祸发生。Musk肯定也知道了摄像头并不靠谱,所以才在Autopilot的新版本中把毫米波雷达的数据作为主要参考依据。

由此可见,Musk说“不用激光雷达只用摄像头,也能实现Level4以上的无人驾驶”更多是出于商业化方面的考虑。

此举意在一边用现有的传感器收集数据,一边等激光雷达价格降下来。如果固态激光雷达的价格真能如宣传中所说下降到100美元到200美元,为了保证汽车行驶的安全性,Musk肯定是会用的。

   一方认为:数据为王,再牛的智能算法也拼不过海量的数据。而另一方则认为:数据只是建材,强大的分析能力才能让它变成摩天大楼,对效率的追求导致了算法, 大数据 取代不了算法。

日前,Google和特斯拉都公布了各自的测试里程数。据外媒报道,Google宣布自己的无人驾驶汽车刚刚完成200万英里道路行驶里程。而特斯拉创始人ElonMusk也于几天后在个人Twitter上宣布:特斯拉Autopilot发布后的1年中累计行驶里程已达到2.22亿英里。

Google和特斯拉两方的表态表面上似乎也印证了双方的观点:数据为王VS算法为王。那实际情况究竟如何?

我们不妨考虑另一个类似的现象:大多数人认为Google的搜索比微软的Bing搜索在质量上做得略好一点的原因是Google的算法好。

  但在前Google工程师吴军博士看来,这种看法在2010年之前是对的,因为那时Bing在技术和工程方面明显落后于Google。 但今天这两家公司在技术上已经相差无几了,Google还能稍稍占优,很大程度上靠的是数据的力量。

Google凭借PageRank算法给搜索结果带来了质的变化,而好的搜索结果能吸引更多的用户使用Google的搜索引擎,这不知不觉间给Google提供了大量的点击数据。

有了这些数据之后,Google可以训练出更精确的“点击模型”,而点击模型贡献了今天搜索排序至少60%到80%的权重,这将吸引更多的用户,整个过程是一个典型的不断自我强化的正反馈过程。

  在Google内部,产品经理们都遵循这样一个规则:在没有数据之前,不要给出任何结论。由此可见,Google的 企业 使命已经融入了员工的日常工作中。 Google正是充分利用了大数据的力量,顺利成为了对整张互联网举足轻重的枢纽节点,非常自然地实现了对互联网的垄断。

再举一个例子,9月27日Google发布了新版本的神经机器翻译系统(GoogleNeuralMachineTranslation,GNMT),宣称该系统的翻译质量接近人工笔译

大多数网友在实际测试过后,表示眼前一亮。与此同时,这也引起了某些翻译工作者的恐慌:”作为翻译看到这个新闻的时候,我理解了18世纪纺织工人看到蒸汽机时的忧虑与恐惧。”而这其实也是充分利用大数据的结果。

其实早在2005年,Google的机器翻译质量就让全世界从事自然语言处理的人震惊不已了:从来没有从事过机器翻译的Google,在美国国家标准技术研究所(NationalInstituteofStandardsandTechnology,NIST)的年度测评中遥遥领先。

在阿拉伯语到英语翻译的封闭测试集中,Google系统的BLUE评分为51.31%,领先第二名将近5%,而提高这5个百分点在过去需要研究5到10年。

Google究竟是做到的呢?除了Google一贯的行事风格——把该领域全世界最好的专家、南加州大学ISI实验室的弗朗兹-奥科(FranzOch)博士挖过来之外,最关键的还是Google手里握有改进机器翻译系统所需要的大数据。

从奥科2004年加入Google到2005年参加NIST测试,期间只有一年时间,如此短的时间只够他将在南加大的系统用Google的程序风格重新实现一遍,完全没有额外的时间做新的研究。而从上图中我们可以看到,Google和南加大系统的水平差了5到10年。

其中的秘密就在于:奥科在Google还是用的在南加大使用过的方法,但充分利用了Google在数据收集和处理方面的优势,使用了比其他研究机构多上万倍的数据,训练出一个机器翻译的六元模型(一般来讲N元模型的N值不超过3)。当奥科使用的数据是其他人的上万倍时,量变的积累导致了质变的发生,而这就是当今人工智能领域最权威的几位专家之一杰弗里-辛顿(GeoffreyHinton)教授所坚持的“多则不同”吧。

值得一提的是,SYSTRAN公司是一家使用语法规则进行翻译的企业,在科学家们还没有想到或者有条件利用统计的方法进行机器翻译之前,该企业在机器翻译领域是最领先的。但现在与那些采用了数据驱动的统计模型的翻译系统相比,它的翻译系统就显得非常落后了。

  经过上述分析: 在当下的企业竞争中,相比于算法或数学模型,数据的重要性的确要大得多,即数据为王。因为前者往往由学术界在几十年前就已经发现了,所有企业都可以加以利用,但是多维度的完备数据并不是每一个企业都拥有的。

今天很多企业在产品和服务的竞争,某种程度上已经是数据的竞争了,可以说没有数据就没有智能。因为从理论上讲,只要能够找到足够多的具有代表性的数据,就可以利用概率统计结果找到一个数学模型,使得它和真实情况非常接近,从而节省了大量人力成本或给予了用户更愉悦的体验。

   数据堂无人驾驶数据产品

  无人驾驶汽车是通过车载传感系统感知道路环境,并根据感知所获得的道路、车辆位置和障碍物信息,控制车辆的转向和速度,从而使车辆能够安全、可靠地在道路上行驶,而提供道路物体识别、路标识别、道路物体精准分割、3D图像标注、多镜头街景图像标注、轨迹追踪、视觉追踪等数据服务,可以完美帮助车辆实现自动规划行车路线,并控制车辆到达预定目标。

   道路物体识别图像数据


本数据包括200万张街景数据,街景包括十字路口、高架桥、隧道、城市道路等。同时标注了行人、车辆、红绿灯、指示标志、禁止标志。其中行人和车辆的标注方法与KITTI数据集相同,并作了适当调整。

   道路路标识别图像数据


  对道路中直行、向左转弯、向右转弯、禁止通行、禁止驶车等30类指示标志及禁止标志进行标注,其中需要标注的目标物体是边框高度大于20像素且遮挡小于10%,限速标志,即标注出真实数值。

   道路物体精准分割数据


共对32种类别(classfy)进行了标注,标注图片一共使用了4种不同的形状(shape),分别为:矩形(rectangle)、圆(circle)、椭圆(ellipse)、多边形(polygon_a,由直线或贝塞尔曲线生成)。

   多镜头街景图像标注数据


多镜头同时采集完成的视频数据,用矩形框标注出左中右镜头多个视频中出现的行人、坐着的人、汽车、厢型车子、骑脚踏车的人、骑摩托车的人,并选择类别和属性。

   轨迹追踪


可以对车辆或行人进行轨迹跟踪标注,对不同目标从0到无限进行数字命名、不重复,连续帧中出现的同一目标标注相同的id。

   视觉追踪


通过仔细看司机的眼睛运动,预估出司机观察的目标,并用矩形框标注出观察目标/对象,对于驾驶任务有用的任何对象均可以被注释(例如,汽车,行人,标志,交通灯等)。

☞点击进入 数据堂 在数据观的企业栏目>>>


责任编辑:王培

随意打赏

无人驾驶汽车数据无人驾驶 大数据大数据 重要数据挖掘算法大数据算法vs算法
提交建议
微信扫一扫,分享给好友吧。