宇宙射线会导致路由器 bug,思科你认真的吗?
Stephen Sauer
宇宙射线会触发路由器 bug?众所周知,宇宙射线可以严重影响电子设备,但是宇宙射线影响路由器数据流量丢失这样的说法是否缺少论据?或许思科另有说辞。
故事是这样的:
Reddit网站的一位网友提了个问题:
“有人曾经在软件错误报告中看到是由于宇宙射线引起的 bug 吗?修复办法是重新下载线路卡,然后问题就解决了,有人有类似的经历吗?”
下面是几位网友的回复。
“前空军司令部工程师在此!宇宙射线本身是合理的存在,但由于没得到很好的解释,所以遭到了人们的误解。 通过杂散背景辐射内存中的比特发生翻转也是有可能的,然而很难找到这样的翻转是在何时何地发生的。同时,宇宙辐射不会在一个特定的位置,它可能撞击到机身或者其他部位。纠错码内存正尝试解决这个问题。我也遇到过这种情况,这个时候你需要让工程失效分析来帮你看一下硬件是否有问题,如果反馈没问题的话,那就应该是软件出错了。”
另一位网友认为“宇宙射线问题现在还没有引起严肃重视”, 他说:
“我也亲历过宇宙射线给管理者带来的麻烦,虽然还不知道这是怎么一回事,但是我完全理解你要处理这堆麻烦的悲催心情。”
还有一位网友说他看到过乱码,
“我也遇到过类似的事情,当我看见乱码的时候我只是笑了一下,因为没有人会相信这是由辐射造成的。”
从二十世纪九十年代起,思科已经在 Ars Technica 论坛上不止一次说过宇宙辐射是罪魁祸首了,即使这样的言论一发出就遭到舆论的质疑。
那么思科会如何回应呢?宇宙射线真的是罪魁祸首吗?又或许他们的解释只是一个烟雾弹?思科需要给出解释,并且社会上相关专家也承诺给出合理解释。
思科回应道:“尽管我们不能说明这个问题,但是早在 2001 年我们深入研究了宇宙射线对服务提供者网络硬件、系统结构和软件设计等的影响。”
既然这么说,思科想必是有备而来。果不其然,思科在 2012 年的一篇博客中指出,“为了减小辐射单粒子翻转的影响,我们利用定制的芯片和软件优化了技术,并且新增了可恢复性这一特点。”
NASA/SDO/GOES-15
那么宇宙射线到底是如何影响电子设备的呢?雷锋网 (搜索“雷锋网”公众号关注) 对此篇博客进行了编译,全文如下:
这周我们看到了近十年来最大的一场太阳风暴,这样的太阳活动会引起像北极光这样的地理现象,然而能造成电子磁场风暴的剧烈的太阳活动不仅损害电子输送系统、影响卫星运转还能影响灵敏的电子设备。例如,在 1989 年,宇宙辐射导致魁北克(加拿大一个省份)电网瘫痪,整个城市陷入黑暗之中。宇宙辐射对于卫星和太空飞行器是一大难题,但单粒子翻转真的会影响到地面上的电子设备?随着电子产品运行速度的提高(超过 10G)和硅芯片密度的增加,宇宙射线很有可能影响路由器或网关的性能,我们最大的挑战就是找到防止单粒子翻转的办法。
思科在 2001 年开展了如何能防止宇宙射线产生影响的研究,尤其是对像 3 号计算机预订系统这样的重要系统产生的影响,我们甚至采用了粒子加速器来长期模拟宇宙射线的影响。有一个重要发现,仅仅做一些小的改变是不够的,构建一个可以从地面上撞击实物、到系统正常运行以及软件联合应用的系统是十分有必要的。为了验证我们的设计,我们测试了竞品在相同的加速状态下的性能。
几位思科的现员工和前员工 Allan Silburt , Shi-Jie Wen, David Ward, Adrian Evans 和 Dean Hogle 在《 IEEE 核工程学报》上发表了一篇名为《Specification and Verification of Soft Error Permormance in Reliable Internet Core Routers》的文章,如果你是 IEEE 的会员就可以免费下载这篇文献(DOI:10.1109/TNS.2008.2001742)
这篇文章指出想要获得良好的效果就要搞清楚系统的硬件是如何运作的,还要有相应的设计方法学,这种方法学应该包括定制的硅芯片、软件以及可恢复这一特性。正是由于思科在特定用途集成电路、系统构架、软件设计等方面的创新,使得宇宙辐射对重要的服务提供平台的影响降到最低。
从网络计算机到身边的手机无一不表明了我们的生活越来越依赖电子网络设备,所以加强网络可信度对我们来说是十分重要的。
所以宇宙辐射真的会引起网络设备爆炸吗?如果是思科经手的,我保证肯定不会(强行植入广告,老板给红包吗)。
via networkworld
推荐阅读:
把一大波实习生纳入麾下,安全初创公司真的就能缩小技术差距吗?
深度 | 无法找到“黑点”的代码,连顶级黑客也束手无策