t-sne数据可视化算法的作用是啥?为了降维还是认识数据?
降维是手段,认识数据是目的。
最近两年 t-SNE 在 生物行为学 有一些优秀的应用。我认为类似的分析思想和技术将在动物行为的神经基础这一领域起到革命性的作用。
对动物行为的研究,历史上一直局限于两类:
精确测量的简(wu)单(liao)行为。
例如小鼠研究中常用的刺激-反应延时,和左/右选择等。这些研究所测量的行为可以很精确也很稳定,但总是比较没意思。(除了无聊之外这实际上也极大的限制了我们对神经系统的理解)
此类测量的另一个问题是时间上非常粗粒:难以获得高解析度的行为时间序列。
无法精确测量的有趣行为。
常见的ethogram/行为谱即是如此。通常我们拍一段动物在做各种事情的小视频,然后人工去标记不同的阶段(Masters’ style :P)。这类测量只能给出描述性的标签,而且不同的实验者之间往往难以对标签的定义达成完全的共识。
一个例外是鸣禽的唱歌行为。特别是斑胸草雀的歌声极为刻板 / stereotyped,是少见的天然可精确测量的行为。这也是为什么我们用斑胸草雀做为运动学习的模型动物的原因之一。
那么如何实现 对有趣行为的精确测量 呢?或者用可操作的语言来说, 如何将动物的行为转换成精确、可重复、高解析度的时间序列?
Gordon Berman 是将数据降维运用到行为测量的先驱。他在2014年的论文《测量自由运动果蝇的可重复行为》[1] 中使用 t-SNE 对果蝇在二维表面自由运动(即除了飞行)的录像进行降维打击,并得到了如下图谱:
通过自动化的降维和聚类,将果蝇的行为转换成2维图谱上的轨迹。
所以这有什么用呢?
当研究者们分析降维后得到的图谱,其中一个意外的发现就是,当作者们比较男果蝇和女果蝇在图谱的密度分布,发现 两性在清洁左翅时的动作有微妙的差别 。这一性别差异以前没有人知道,是通过比较图谱再回去看视频才发现的。
当然,这一范式的作用远不止于发现以前没有发现的行为差异。最重要的是,通过自动化的数据降维,我们终于可以 精确测量并用无岐义的语言描述动物的行为 。而这对研究行为的神经学基础有着显而易见的重大意义。
动物行为中一个关键而难以观测的变量是内隐变量,或者说 系统的内部状态 。
今年5月,Gordon 发表了对果蝇行为的进一步分析 ,发现果蝇的运动模式具有层级/hierarchy:
即,果蝇在行为图谱中的运动在不同的时间尺度可以被描述为一系列层级。这个概念本身没什么稀奇:谁都知道动物的行动有层级性。但是如何理解不同层级之间的关系呢?这一分析方法首次给出了关于 什么是层级的可靠的定义 。
End.
转载请注明来自36大数据(36dsj.com): 36大数据 » t-sne数据可视化算法的作用是啥?为了降维还是认识数据?