宜远智能CEO吴博:医学影像的数据标注、算法方法与算力优化
雷锋网AI掘金志《未来医疗大讲堂——医学影像专题》第四期总结文:一个只给医疗AI从业者、影像科医生、名校师生、CFDA工作人员看的系列课程。
注: 90分钟的视频 信息量巨大,文章仅为冰山一角,强烈建议观看完整版视频 (含57页PPT) ,请点击链接: http://www.mooc.ai/open/course/384
一、数据篇(17页PPT)
1.医学影像数据资产盘点
2.标注工具——脱敏:大框架、小技巧
3.标注工具第一类——PC+文件夹处理
4.标注工具第二类——专用IT系统和工具:客户端系统与网站系统
5.第三方标注工具LabelImg
6.自建工具
7.标注工具开发心得
8.标注工具第三类——专用工具+AI辅助标注
二、算法篇(31页PPT)
1.关于数据分割比例
2.迁移学习
3.框架选型:Pytorch、Caffe、TensorFlow、MXnet
4.目标检测用于面部皮肤疾病分析
数据脱敏及预处理、皮肤疾病检测
5.目标检测用于宫颈基液细胞分析
基于深度学习+GBDT的Two Stage模型
multi CPU+multi GPU宫颈病理三分类系统
6.3D目标检测用于肺结节CT分析:
数据处理、肺结节预测框架、Faster RCNN框架、Online hard Example mining、Loss 函数、框架选择、我们的模型框架、FROC效果提升、模型网络结构(150层+,Unet+Resnet)、分类器与融合
三、算力篇(9页PPT)
1.架构选型决策:品牌 VS DIY
-
Intel CPU+Nvidia GPU
-
Power CPU+Nvidia GPU
-
Intel CPU
-
Intel +ASIC
-
Intel +FPGA
2、选型决策:云VS自建
亚马逊云、美团云、阿里云
3.算力优化:CPU GPU 宽带优化、CUDA
吴博从数据、算法和算力三个层面,详细介绍了自己在AI医学影像落地方面的实战经验和心得。
他指出,医疗数据的价值评估与钻石类似,可以从数据质量、同分布来源的影像数据尺寸和数据标注程度这三大维度来考核。没有经过标注的数据就像未经加工的原石,无法体现其价值,因此数据标注是AI医学影像落地过程中至关重要的一环。
吴博对数据标注工具进行了分类,并分享了自己在开发数据标注工具方面的心得。他指出,通过自建工具能够更好地满足项目推进过程中的用户管理、权限管理、多人协作审核,以及模型迭代标注调整等需求。
数据层面,企业能做的决策不多,只能“看菜吃饭”,但在算力层面,企业有很多的选择,比如选择什么样的框架,选择品牌设备还是DIY设备,选择云服务还是自建机房等。在课程的最后部分,吴博详细介绍了许多选型决策和算力优化方面的技巧。
嘉宾介绍:
吴博,宜远智能CEO
学术背景:
吴博先后在清华大学、香港浸会大学求学,并在英国利兹大学完成博士后,师从计算机视觉专家唐远炎教授等人。与此同时,他也在ICML/ACL等顶级会议发表多篇人工智能论文。
工业界经验: 2017年创立医疗AI公司:宜远智能,该公司集结了20多名人工智能博士以及众多海内外医学顾问,为医疗健康领域提供AI增强解决方案,并与多家知名医院达成合作,并推出成型产品。
创立宜远智能之前,吴博曾在爱立信大数据研究院任职。还主导过百亿级虚拟品电商、数字货币系统的业务及数据架构建设与运营。
2017年成果:
吴博领导的宜远智能团队在医学影像领域,取得以下成绩:
1.阿里天池医疗AI大赛GPU环节国内最佳;开源系统荣获大赛人气奖。
2.面部皮肤诊断分析API、SDK已经进入商业化,并在2017年世界互联网大会展出。
3.宫颈基液细胞学诊断AI在权威评测中,超出医生水平。
以下图文为雷锋网 (公众号:雷锋网) AI掘金志节选的吴博课程部分内容:
一、数据篇
如何评估数据价值?
医疗人工智能建立在海量数据的基础之上,但优质的医疗数据十分稀缺,其价值随之凸显。如何准确评估数据的价值,是医生和投资人非常关心的话题,对此业内尚未形成共识。
吴博认为,医疗数据可以类比为钻石。钻石的价值评估对应着颜色、净度、切工和克拉这四个维度,医疗数据也可如此类比。
颜色越纯、净度越高的钻石,价值也就越高。对于医学影像数据来说,它的价值也取决于其干净、规范、清晰和标准化的程度。如果是从胶片、PACS系统和诊断报告中翻拍而来的数据,必然会包含一些杂质,其价值将大打折扣。吴博指出,高质量的数据需要是Raw Data,比如mhd格式的DICOM影像和openslide病理图像。
钻石单颗克拉数越高,价值也就越大。吴博认为,钻石的克拉数可类比同分布来源的影像数据尺寸。所谓同分布来源的影像数据,对CT来说就是来自同一设备的,参数和曝光强度都相同的影像数据;对病理图像来说,则指采用同一染色方法和色度、同一扫描仪及倍数,以及相同存储格式的影像数据。
虽然AI企业的最终目标是开发出一套通用性强的算法,能通吃各种数据;但作为数据资产方,同分布同来源的影像数据规模越大,其价值就越高。
有些医院虽然拥有大量数据,但它们来自不同的科室,格式也不尽相同,这种数据的价值是要打一些折扣的。
钻石成为商品前需要经过切割等加工,医疗数据同样要经过标注等处理才能释放其价值。钻石的切割工艺分为许多个层级,医疗影像数据的标注亦是如此。从基础的类别标注到类别+病灶方框标注,再到类别+像素级勾画,标注的精细度逐级提升,数据的价值亦水涨船高。
如何选择数据标注工具?
工欲善其事,必先利其器。要想对医疗影像数据进行精细化的标注,首先得有好的标注工具。
吴博将标注工具划分成了三大类别,他将最基础的一类称作“pc+文件夹处理”,即让医生在pc和工作站上对数据进行分拣。对于医生来说,专业的数据标注软件有一定的学习成本,原始的分拣处理减少了学习成本,而且往往行之有效,还具有不受网络影响、安全性较高等优点。不足之处则在于,对后期的数据清洗要求更高,而且过程繁杂,十分消耗人工物力。
更高阶的有专用IT系统和工具,包含第三方工具和自建工具。以MIT 的 Pascal VOC 标准标注工具 labelImg为代表的第三方工具虽然功能强大,但在通用性和灵活性方面还有所欠缺,因此企业经常不得不开发一些自建工具。
宜远智能在开发数据标注工具方面积累了许多心得。吴博指出,通过自建工具能够更好地满足项目推进过程中的用户管理、权限管理、多人协作审核,以及模型迭代标注调整等需求。
尤其是在医学影像领域,标注的数据大多为图片,天然具备便于展示的优点,因此可以本着方便易用的原则采用H5的canvas来设计标注工具,同时结合css3的变换,满足图像缩放、标注的需求。标注人员只需打开浏览器即可标注,无需复杂软件部署。
鉴于有些标注图片太大(比如一例CT数据多达几十甚至上百兆,一例病理数据有可能多达1G),网络传输效率低下,有时候需要对标注数据做本地处理。小的项目可以采用数据本地化的方式,使用fiddler等代理软件将网络图片请求代理到本地。大的项目则可以做内网的分布式部署,将标注系统部署在内网服务器上,由标注人员在内网进行标注。
基于这些自建工具,标注人员可以根据需求选择本地标注或在线标注,操作集中于鼠标,交互非常友好。标注人员可根据不同标注需求绘制点/线/框,无需复杂设置,打开浏览器即可标注,也可以清楚看到哪些已标哪些未标。
随着技术发展,数据标注本身也呈现出了AI化的趋势。比如基于以往的标注,可以通过AI模型对数据进行预处理,然后由标注人员在此基础上做一些校正。
二、算法篇
(算法篇 共有 31页 信息量极大的 PPT )
三、算力篇
吴博认为,算力优化本质上是跟预算做斗争,因为任何一家企业的预算和资源都是有限的,必须做很多的决策,要有所取舍。
数据层面,企业能做的决策不多,只能“看菜吃饭”,有多少数据就做多大的事。但在算力层面,企业有很多的选择,比如选择什么样的框架,选择品牌设备还是DIY设备,选择云服务还是自建机房等。
就框架而言,Intel CPU + Nvidia GPU的框架是目前为止的首选,特别是在需要做模型训练的情况下。但企业也可以根据自身需求选择其他框架,比如IBM体系的Power CPU + Nvidia GPU框架,性能也很优异,在CPU与CPU、CPU与GPU、GPU与GPU之间都可以提供非常出色的带宽支持,构成比较高端解决方案。
而且为了追赶Intel CPU + Nvidia GPU的框架,Power CPU + Nvidia GPU提供了很多扶持计划。对于研发团队来说,加入它们的foundation获得算力上的支持是个不错的选择。而且Power和浪潮的合作非常紧密,这意味着它的国产化将不成问题。
此外,还有Intel CPU、Intel + ASIC、FPGA等多种框架,它们各有优缺点,企业可以视自身情况作出选择。
……
学员部分提问
雷锋网AI掘金志线上直播结束后,学员从不同维度提出了18个问题,吴博对多数问题进行了耐心解答。
问题:
1.多疾病分类的时候,针对严重不均衡的数据,除了过采样以外,还有没有算法层面的突破?严重不均衡的数据集合会不会造成分类时baseline不稳定?
2.如何对多模态数据进行有效利用?
3.针对组织器官数据有哪些标注工具?
4.模型迭代标注调整是什么意思?
5.今天讲的细胞学、病理、肺结节等,有做成产品用到医院的吗?
6.病理图片的颜色千差万别,如何做预处理?
7.液基细胞学用语义分割做的分割效果如何?
……
本文仅展示了部分内容和10页PPT,剩下的精彩内容和47页PPT,欢迎点击链接: http://www.mooc.ai/open/course/384
。