谷歌开源交互式可视化 GPS 数据库(附 20+数据集)
1 新智元编译
作者:Jimbo Wilson,Brendan Mea de;Oliver Cameron
译者:李静怡
新智元启动新一轮大招聘 :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。
简历投递:j obs@aiera.com.cn
HR 微信: 13552313024
新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、 高于业界平均水平的工资和奖金。
加盟新智元,与人工智能业界领袖携手改变世界。
【新智元导读】 谷歌研究院官方博客(北京时间)今日更新,宣布开源与哈佛大学等高校和机构合作完成的一个交互式可视化 GPS 地球地震周期物理学数据库。不仅如此,本文后附 20+ 更多奇异有趣的数据集,万一哪天用上了呢?
谷歌希望借开源产品,打造数据数集生态
(文/Jimbo Wilson,Google Big Picture Team 软件工程师;Brendan Meade,哈佛大学地球与行星科学系教授)为了帮助研究人员更好地了解地震周期 并探索相关数据 ,谷歌研究院发布了一种新的交互式数据可视化方法,通过相对于真实位置放大位置估计值,在地形图顶部绘制大地测量速度线(geodetic velocity lines)。
与现有方法――集中于小段时间或单个观测站位置不同,新的可视化方法可以一次显示整个阵列所有观测站的数据。获取开源代码可以访问 GitHub,用的是 Apache 2 许可证。这种可视化技术是哈佛大学地球与行星科学系与 Google 机器感知(Machine Perception)和大图片(Big Picture)团队之间的合作成果。
这种新的方法可以帮助科学家快速评估地震周期各阶段的变形――包括地震(同震)和(地震)之间的时间。 例如,我们可以到站的方位角(方向)反转,因为它们与地形结构和活动断层有关。挖掘这些运动将帮助科学家审查他们的模型和数据,而这两者是开发准确的计算机表征的关键,有助于预测未来的地震。
将这些数据可视化的一种经典方法大致分为两类:
-
根据固定时间间隔上的速度/位移矢量上生成的地图视图(下图左);
-
根据每个 GNSS 分量(经纬度和高度)与时间生成的位置图(下图右)。
这次研究人员采用的可视化方法很简单:通过放大每天的经度和纬度位置变化,显示每个站的位置随时间演变的轨道。这些放大的位置轨迹被示为划在阴影浮雕地形顶部上面的轨迹,从而给观看者一种在地理情景中位置演变的感觉。
此外,研究人员还将这些微小差异乘以用户控制的比例因子(因为 直接在地图上的这些点之间绘制线段会太小而看不到 )。默认情况下,此放大因子为 105.5(约 31.6 万倍)。
然而,这种类型的静态渲染遭受与速度矢量图像相同的问题;在具有高密度 GNSS 站的区域中,轨道彼此重叠显着,造成细节模糊。为了解决这个问题,该可视化允许用户自主选择时间范围、放大矢量和其他设置。此外,通过从开始到结束动画线,用户能够获得静态图像中难以实现的真实的运动感。
选择来自日本 GEONET 阵列大约 20 年的数据。通过它可以看到,在 2011 年日本东北地震前后方向上小而连贯的变化(原文是 .gif 图,下面用截图表示):
上面这个动图显示了许多可视化的交互功能:
-
修改乘数可调整移动放大的程度;
-
可以调整时间滑块选择特定的关注时间范围;
-
使用 Google Maps Java API 地图控件,可以放大地图中的一个很小的区域;
-
通过启用地图标记,可以看到有关各个 GNSS 站点的信息。
通过关注感兴趣的站点,在这个可视化动图中还可以看到事件前后和当时的曲率变化。
为了实现线段的快速渲染,研究人员使用 THREE.js 创建了一个自定义叠加,以在 WebGL 中渲染线条。GNSS 站点数据以数据纹理(data texture)的形式传到 GPU,使得顶点着色器(vertex shader)基于用户设置和动画,动态地在屏幕上定位每个点。
这项目合作探索了开创性的新地震可视化机会。如果你也想自己试着进行可视化,请按照earthquake.rc.fas.harvard.edu 中的说明进行操作,包括如何完成设置、如何下载可用的数据集。欢迎通过 GitHub 项目页面提交问题。
还有更多你意想不到的数据集大放送
除了谷歌研究院开源的这个数据集,此前新智元就整理过一些开放的数据库列表。鉴于今天的“11·11”,下面就来看更多有趣的数据集~
(文/Oliver Cameron)有人说,在机器学习里,数据的重要性占了 95%,可想而知数据对于机器学习的重要性。
但是,要找到有趣的数据库非常困难,可以说执掌了行业向前发展的关键。因此,我做了大量的搜索,整理出一个奇怪但有趣的数据库的列表:
上图可能看不清晰, 可以访问原文点击放大查看(原文地址见文末) 。从葡萄酒品质、SMS Spam Collection 到 NBA & MLB Satats,上面这个列表中,作者表示他自己最喜欢是的 UFO Reports,里面有整整 8 万+ 的数据!
此外,Oliver 也很着迷于军事化的数据集,其中包括 200 年的国际威胁和冲突,里面包括采取的行动、敌对程度、死亡率和结果。
如果有任何想要分享的想法、问题或数据集,他表示很乐意以 Tweet 形式听到你的意见。你可以关注 @olivercameron 并给我发消息。
原文地址:
-
https://research.googleblog.com/2016/11/open-source-visualization-of-gps.html
-
https://medium.com/@olivercameron/20-weird-wonderful-datasets-for-machine-learning-c70fc89b73d5
新智元启动新一轮大招聘 :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。
简历投递:j obs@aiera.com.cn
HR 微信: 13552313024
新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、 高于业界平均水平的工资和奖金。
加盟新智元,与人工智能业界领袖携手改变世界。