AI与植物学:深度学习助力科学对植物生物多样性的理解,带你走进神奇的植物世界
来源:NVIDIA Blog
编译:T.R
几个世纪以来,科学家们建立和维护着巨大的植物信息库,遍布全球的自然历史博物馆和研究机构中有着成千上万的植物标本。科学家们利用这些标本对新发现的植物进行识别和分类。近年来随着标本的数字化,文本、数据和图像变得更易分享和获取。
如今来自史密斯学会和哥斯达黎加理工学院的研究人员们正致力于更加充分地深入利用这些数据,将大数据分析、计算机数据和GPU计算技术结合起来,希望更深入地理解植物信息学。
在深度学习帮助下,科学家们有望大大加速每年的植物分类学工作效率,传统的人工分类条件下植物学家需要对新发现的物种与已知的40万种植物作比较,每年能发现并描述2000种植物。
哥斯达黎加理工的研究人员与法国国家农业研究中心和法国国家信息与自动化研究所合作研发出了一种基于图像识别的深度学习算法。他们基于博物馆的标本数据库训练了一个能根据图像数据对植物进行分类的分类器。
研究人员们基于IceptionNet改进了新的模型,将Relu单元变为参数化的ReLU单元用于避免了模型了过拟合。同时在单元中增加了批量归一化单元。用于加速网络的训练收敛。在使用中每一个batch有16张224*224的图片作为输入,并以0.0075的学习率进行训练。
训练数据来自于标本数据和一系列真实样本数据包括包含214种植物的Herbarium255 数据库,包含一千种植物的PlantCLEF数据库,255种叶片数据的CRleaves数据库。通过这些数据库的训练,研究人员们达到了90%的识别分类准确率,将传统需要人工识别比对的工作效率大大提了。
同时史密斯学会也进行了独立的研究,利用卷积神经网络对自然历史信息进行数字化处理,利用深度神经网络对基于图像的植物标本信息进行处理,同时也实现了90%的精度,同时可以以 96% 的精度区分形态学上极为相似的两种植物。
这对于植物分类学的意义重大,意味着植物学家们可以中耗时最多的比对分类工作中解放出来,迅速提高植物分类学的研究效率,将大大增加每年新发现的植物种类,推动一个新的大发现的时代到来。同时准确的植物分类结果是确定生物种群分布的基础,着更有助于保护区的划建和对动植物的保护。
与此同时史密斯学会还致力于对水银处理的追踪,这是一种早期植物学家处理植物标本防止昆虫损坏的方式。通过扫面上万张沾染和为沾染汞的植物样本照片,使得植物学家们可以分离出被汞处理过的样本。
法国农业研究发展中心随后研发出了一个称为PPl@ntNet的神经网络并继承到了手机app中,使的人们可以更加方便的在考察中使用手机快速的对植物进行分类采集需要的数据,而不用像以前一样采集标本送回实验时进行漫长的比对才能确定结果。
一个小游戏:识别你家的花盆里的植物是啥>>https://identify.plantnet-project.org/
和上述工作类似的是,史密斯学会建立并维护的iDigiBio数据库,这是一个庞大的数据化生物信息库,包括生物分布和图像数据以及形态学生物学方面的信息。在未来将逐渐将深度学习应用在这一数据库上发挥更大的价值。
目前哥斯达黎加理工的团队希望在两个方面继续深化这种高效率的生物信息学。首先他们希望在更多的物种上建立起 识别的生物信息库 ,将这种识别方式应用到昆虫、鸟类和鱼类等物种的发现鉴别和分类中去。另一方面,他们希望在纵深方向进行更深入的发展,实现从基因层面到种属方面的自顶向下的全面分类信息。这将会实现全新的生物信息学并涵盖更为丰富的信息,达到更高程度的信息融合。
- 一些参考:
https://identify.plantnet-project.org/
https://www.si.edu/
https://www.idigbio.org/
- 相关论文:
https://bmcevolbiol.biomedcentral.com/articles/10.1186/s12862-017-1014-z
https://bdj.pensoft.net/articles.php?id=21139