利用数据科学击败癌症
寻求治愈癌症的方法因其复杂性而困扰了相关的研究人员数十年之久。 尽管他们取得了显著的进步, 但他们仍在苦战当中,因为癌症仍然是全球主要的死亡原因之一。
然而,科学家方阵营可能很快就有一个关键的新盟友出现在他们身边-智能机器-可以通过不同方式来攻克此难题的复杂性。
举一个博弈届的案例:去年, 谷歌人工智能平台, 研制出的AlphaGo,利用深度学习等技术, 击败 韩国围棋大师李世石。围棋所能走的棋路极为复杂, 下的棋子情况比宇宙中恒星数目还多。
同样,这些机器学习和人工智能技术也能够应用在治疗癌症的大量科学难题中。
但能够肯定的是-如果我们不能取得更多的实验数据,我们将没有机会去使用这些新方法来征服癌症。 许多数据集,包括如医疗记录, 遗传测试和检查记录等, 都被保密封锁了,以至于我们最好的科学头脑和最好的学习算法,都未能使用派上用场。
而好消息是,大数据在癌症研究中的发挥着核心作用, 同时一些大规模的,政府主导的测序措施正在向前推行。 这些举措包括美国退伍军人事务部 百万老兵计划;英国的100000个基因组计划;和美国国立卫生研究院的 癌症基因组阿特拉斯,该癌症基因组具有超过11000的患者数据,而这些数据通过云开放给所有的研究人员进行分析。 根据 最近的一项研究表明,直至2025年止,多达20亿个人类基因组可以被进行测序。
其他的发展趋势也驱动了数据更新的需求,包括基因检测。2007,对一个人的基因组进行测序需要花费1000万美元。如今,1000美元不到就可以完成。换句话说,在10年前能测序一个人,我们现在可以测序10000个人。这种影响是相当大的:有时,发现一个与高度的癌症风险相关的突变基因可以救人一命。随着成本越来越接近大众承受能力,研究工作的规模也发展得更加庞大。
研究人员(和社会)面临的一个主要问题是,目前的数据库在总量以及种族多样性上均有欠缺。此外,研究人员经常面临限制性的法律条款,并且合作伙伴之间相互不愿共享资源。即便机构之间共享了基因组数据库,共享协议也通常仅限个别机构之间的个别数据库。如今虽然已有了更大的信息搜集所和数据库,并且也已做了大量工作,但是我们仍需要在条款和工作平台的标准化上做更多工作才能加快访问。
这些新技术的潜在好处不仅限于发现和筛选风险。机器学习的进步可以帮助加快癌症药物的开发和治疗方案的选择,这使得医生可以将病患和临床试验匹配起来,并且提高他们为癌症患者提供定制化治疗方案的能力(赫赛汀就是目前最早的也是最好案例之一)。
我们认为,为了让数据对癌症研究和AI程序更有用,如下三个趋势是将发生的。第一,病患应该能够更加方便的贡献数据。这包括医疗记录,放射图片和遗传测试。公司的实验室和医疗中心需要达成一致使得数据的共享更加简单合法。第二,需要更多的资金,尤其是那些在AI交叉领域,数据科学和癌症领域工作的研究者们。就像Chan Zuckerberg Foundation正在资助医学的新工具开发那样,新的AI技术也需要被资助去研究新的医学应用。第三,需要生成新的基于所有人类种族的数据集,我们需要确保每个癌症研究领域取得的进步都是可以被全人类享用的。
End.
转载请注明来自36大数据(36dsj.com): 36大数据 » 利用数据科学击败癌症