新智元报导
修改:元子、白峰
胸部计算机断层扫描(CT)图画在对新冠肺炎(COVID-19)供给精确、快速、廉价的筛查和检测方面很有远景。
在本文中,研讨者构建了一个开源的COVID-CT数据集,其间包括275个COVID-19检测呈阳性的CT图画,有助于运用深度学习办法剖析患者的CT图画并猜测其是否患有新冠的相关研讨和开展。
研讨者在该数据集上练习了一个深度卷积神经网络,F1值到达0.85,这个成果到达了研讨团队的等待,但仍需进一步改善。
相关数据和代码:
https://github.com/UCSD-AI4H/COVID-CT
核酸检测的最大问题:速度慢且稀缺,追不上新冠肺炎的传达速度
到2020年3月30日,在全世界范围内已有775306人感染新冠肺炎,37083人逝世。对此疾病检测的低效和缺少成为操控其传达的首要妨碍。
现在的检测首要依据逆转录聚合酶链反应(RT-PCR),需求4到6个小时才干取得成果。与新冠肺炎可怕的传达速度比较,这远不够快。除了功率低下之外,RT-PCR检测验剂盒也非常缺少。
这促进研讨团队去研讨代替的检测办法。这些办法或许更快,比RT-PCR廉价,更简单取得,但与RT-PCR相同精确。在很多或许性中,研讨团队对CT图画特别感爱好。
有几篇作品研讨了CT图画在挑选和检测新冠肺炎时的作用,成果鼓舞人心。但是,出于对隐私的维护,这些研讨中所运用的CT图画并不会公之于众,这极大地阻止了依据CT图画的精准检测新冠肺炎先进人工智能办法的研制。
构建COVID-CT数据集,练习深度学习模型确诊新冠肺炎
为了处理这样的一个问题,研讨团队构建了一个COVID-CT数据集,其间包括275个新冠肺炎检测呈阳性的CT图画,并向大众敞开,以助于依据CT图画的新冠肺炎检测的研制。
研讨团队从760个关于新冠肺炎的medRxiv和bioRxiv预印本中提取了 CT图画,并经过阅览这些图画的标题人工挑选出具有新冠肺炎临床病症的图画。依据183个新冠肺炎 CT图画和146个非新冠肺炎 CT图画,研讨团队练习了一个深度学习模型,以猜测一个CT图画是否呈新冠肺炎阳性。
在35个新冠肺炎 CT图画和34个非新冠肺炎 CT图画进步行了测验,研讨团队的模型F1值为0.85。成果表明,CT扫描有望用于挑选和检测新冠肺炎,但是还需求更先进的办法来进一步进步精确性。
确诊新冠肺炎的患者入院时的CT图画。
A,2020年2月2日,一名39岁男性的胸部CT扫描成果,显现双侧毛玻璃混浊。
B,2020年2月6日,一名45岁男性的胸部CT扫描成果,显现双侧毛玻璃混浊。
C,2020年1月27日,一名48岁男性(在医治后第9天出院)的胸部CT扫描成果,显现斑片状暗影。
D,2020年1月23日,一名34岁男性(在医治后第11天出院)的胸部CT扫描成果,显现斑片状暗影。
图1:关于包括多个CT子图画的图画,研讨团队将其手动拆分为单个CT图画。
怎么创立数据集
在本节中,研讨团队描绘了怎么构建COVID-CT数据集。研讨团队首要收集了760个于1月19日 至3月25日期间在medRxiv1和bioRxiv2上发布的的关于新冠肺炎的预印本。
这些预印本中有许多报告了新冠患者病例而且其间一些展现了患者的CT图画。
这些 CT图画附有描绘其临床病症的标题。研讨团队运用了PyMuPDF3提取预印本PDF文件的底层结构信息并定位到一切嵌入的图表。这些图表的质量(包括分辨率,巨细等)大都保存无缺。
依据结构信息,研讨团队还识别出一切图表的标题。依据提取的图表和标题,研讨团队首要手动选出一切CT扫描图画。
然后关于每个CT图画,阅览其对应的标题然后判别它对新冠肺炎是否呈阳性。假如无法经过标题判别,则在预印本中找到剖析此图的文字以做出决议。关于包括多个CT子图画的图画,研讨团队将其手动拆分为单个CT图画,如图1所示。
最终,研讨团队取得了27个CT扫描图画,标记为新冠肺炎阳性。这些图画巨细不同,最小,均匀和最大高度分别为153、491和1853;最小,均匀和最大宽度分别为124、383和1485。这些扫描来自143例患者。图2 显现了新冠肺炎CT扫描图画的一些示例。
图2:新冠肺炎阳性的CT扫描图画示例
两种办法:搬迁学习和数据扩大
研讨团队依据这个数据集开发了一个基线办法,期望有爱好的学者可以对其进行基准测验。
虽然研讨团队所运用的关于新冠肺炎的CT图画数据集是现在最大的揭露可运用的CT图画数据集,但是它仍旧较难到达练习模型所需的数据量。
由于在如此小的数据集上练习深度学习模型非常简单导致过度拟合:模型在练习数据上体现杰出,但是在测验数据上泛化不抱负。因而,研讨团队采用了两种不同的办法来处理这样的一个问题:搬迁学习和数据扩大。
其间,搬迁学习的意图是运用来自相关范畴的很多数据来辅佐模型的练习与学习。详细来说,研讨团队运用很多的胸部X光图画来预先练习一个深度卷积神经网络,然后在COVID-CT数据集上对练习好的网络进行微调。
数据扩大的意图是组合近似正确的图画-标签组,例如,在大多数组合的图画标签组中,标签是对图画的正确注释。
搬迁学习
为了处理练习数据缺乏的问题,研讨团队采用了搬迁学习的办法。详细来讲,研讨团队运用NIH发布的ChestX-ray14 数据集来预练习DenseNet,然后在COVID-CT数据集上对预练习后的DenseNet进行微调。
数据扩大
另一种处理数据缺乏的办法是数据扩大:即从有限的练习数据中,创立新的图画-标签组,并将组成后的组添加到本来的练习会集。在创立新的组时,研讨团队采用了随机仿射改换、随机裁剪和翻转来扩大每个练习图画。随机仿射改换包括平移和旋转(视点依次为5,15,25)。
实验设计以及成果
研讨团队收集了195个检测新冠肺炎呈阴性的CT扫描数据,来练习一个二分类模型用于猜测一个CT图画是新冠阳性仍是阴性。
其间,研讨团队依据患者数据将其分为练习集,查验集和测验集,图表1总结了每个数据会集新冠阳性和新冠阴性图画的数量,每个CT图画的巨细都调整为224*224,并经过验证集对超参数进行调优。
再者,经过运用学习率为0.0001,余弦调度和最小批处理巨细为4的Adam,研讨团队对网络中的权重参数进行了优化。最终,研讨团队运用五个目标来评价研讨团队的办法:(1)精确性; (2)精度; (3)召回率; (4)F1指数; (5)ROC曲线面积(AUC)。关于这些目标,越高越好。
上图展现了这个基线办法的精确度、精密度、召回率、F1指数和AUC。虽然精度较高,但是召回率的成果并不令人满意,因而,需求用更先进的办法来进步召回率。
总结
研讨团队建立了一个关于新冠肺炎的揭露CT扫描数据集,来促进经过读取CT图画从而挑选和检测新冠肺炎患者的AI技能的开展。
此数据集包括275个CT扫描成果为阳性的新冠肺炎患者的CT图画。
研讨团队运用该数据集练习了一个深度学习模型,并取得了0.85的F1值。下一步,研讨团队将持续改善办法以到达更好的精度。
论文链接:
https://arxiv.org/abs/2003.13865