|
如何利用机器学习对胎儿先天性心脏病进行诊断作者:Magigen 美国加利福尼亚州旧金山市加利福尼亚大学医学部心脏科Rima Arnaout博士的研究团队利用机器学习对大量的先天性心脏病诊断图片进行处理,大幅提高了诊断效率。他们的研究成果发表在2021年3月的《Nature》杂志。 参与研究的人员告诉美格君:"使用这种方法可以将先天性心脏病的产前检测能力提高一倍,这是一种颠覆性的创新,并将极大地改变CHD诊断的局面。" 先天性心脏病CHD是最常见的出生缺陷,在胎儿期可能无症状,但在出生后会导致严重的发病率和死亡率。与产后诊断相比,胎儿诊断可以改善新生儿的预后\以及手术和/或介入计划,并且可以实现宫内治疗。因此,区分正常胎儿心脏和需要转诊给胎儿心脏病专家的复杂冠心病是一个关键步骤,有普遍的需求。 这项任务的低敏感性会限制姑息治疗的选择,恶化产后结局,阻碍子宫内治疗的研究,而低特异性会导致不必要的额外检测和转诊。 在世界范围内,建议在妊娠中期进行胎儿检查(胎儿筛查超声检查),通常包括5个临床推荐的心脏检查(图1a),这些检查可以使临床医生诊断出最高达90%的复杂CHD。 然而,在现实中,即使在超声波是普遍存在的情况下,检出率往往低至30%。特异性也不理想,低至40-50%。 图1. 模型集合概述。 a、 诊断指南建议使用所示的五个轴向视图来检测冠心病CHD。 b、 整体模型的示意图,是所示组件的集合。从胎儿超声中,深度学习分类器-DL分类器检测五个筛查视图(“DL视图分类器”)。 每个视图的后续DL分类器检测视图是正常还是异常(“DL-dx分类器”)。 每个图像、每个视图分类被输入基于规则的分类器(在扩展数据图1c中详细说明),以创建关于胎儿心脏是正常还是异常的复合诊断决策(“复合dx分类器”)(腹部视图未包括在复合诊断分类器中,因为在临床上,腹部视图对于诊断来说没什么作用;详见方法)。 A4C视图也被传递给分割模型,以提取胎儿心脏生物特征。NT:非目标;dx:诊断。 可能的和常见的冠心病检测之间的差距有两个原因: (1)解释方面,专业知识不足; (2)达到诊断质量标准的图像的不足。成像不足的原因包括透声窗不好、胎动和胎儿心脏体积小。 此外,一个胎儿调查包括数千幅图像,每个视频扫描跨越多个结构,因此与冠心病相关的诊断图像可能只有少数,因此很容易错过。 最后,冠心病在人群中的患病率(~0.8–1%)很低,不太专业人士很少遇到,可能会忽视或忽略异常图像。总之,这些使得冠心病的检测成为超声诊断中最困难的挑战之一。 深度学习(Deep learning,DL)是一种***的机器学习方法。DL已应用于成人心脏超声,在小样本数据集的视图分类方面超过临床医生。DL可以用来对图像进行分类或分割图像中的结构;几个DL模型可以以集成方式一起使用。我们认为深度学习DL可以改善CHD的超声分析。 研究结果 为了测试DL是否能提高胎儿CHD的检出率,依靠多模式成像和胎儿心脏病学专家,我们实施了一个神经网络集成(图1b)。该神经网络有下列功能: (1)从胎儿超声(测量或超声心动图)的图像中识别五种满足诊断质量要求、指南推荐的心脏视图(图1a), (2)使用这些视图提供能正常心脏与16个复杂CHD病变的分类(表1); (3)计算每个心腔的心胸比率(CTR)、心轴(CA)和面积变化分数(FAC)(扩展数据图2)。 为了训练集合中的各种成分,研究人员使用了来自1326个研究对象的107823张图像。 五个独立于训练数据集的测试数据集用于评估模型性能:
视图分类 确定胎儿CHD筛查中推荐的5个心脏切面(三血管气管(3VT)、三血管切面(3VV)、左室流出道(LVOT)、轴四腔(A4C)和腹部(ABDO))是诊断的先决条件。因此,我们训练了一个卷积神经网络(扩展数据图1a)视图分类器(“DL视图分类器”,图1b),从胎儿超声中选取五个筛查视图,其中任何不是五个指南推荐视图之一的图像都被分类为“非目标”(例如,头部、脚部、胎盘)。训练数据是多模式的,包括胎儿超声心动图(自然包含更多和更高质量的心脏视图)和胎儿检查(提供全范围的非目标图像)。值得注意的是,仅使用具有足够质量的视图来进行诊断(如专家标注工具所认为的,方法)来训练视图分类器。 在胎儿-125测试集的正常研究中,视图分类的F分数(精确性和召回率的调和平均值)为0.93(AUC范围为0.94–0.98,图2a,b)。网络对特定图像的分类决策由图像属于每个可能类别的概率决定;默认情况下,图像被分配给概率最高的类。对于胎儿视图分类,如成人所示,正确预测的平均概率显著高于错误预测的平均概率(P值,Mann–Whitney U检验,<1 × 10−300)(图2c)。 图2. 集成模型的视图检测的性能。 标准化混淆矩阵和ROC曲线显示了胎儿-125测试集正常心脏的分类器性能。Pos.,positive, 阳性。 a、标准化混淆矩阵。 b、ROC曲线。 c、 小提琴图显示此测试集的预测概率的。在小提琴的图中,白点表示中位数,粗黑线表示**到第三个四分位数。 d、归一化混淆矩阵。 e、ROC曲线, f、OB-125测试集胎儿检查的百分比,模型检测视图(与括号中显示的人类检测视图相比)。 x轴下方括号中的数字表示每个绘图中独立图像的数量。对于正确预测的图像,最小、**四分位、中位数、第三四分位和**预测概率分别为0.29、0.98、1.0、1.0和1.0。 对于错误预测的图像,最小、**四分位、中位数、第三四分位和**预测概率分别为0.32、0.60、0.75、0.92和1.0。 归一化混淆矩阵d和ROC曲线e显示了OB-125测试集正常心脏的分类器性能。 灰色阴影表示具有AUC≥75的正常视图与异常预测对比, 图3a,d、g。 每个视图(顶行)显示一个示例测试图像,并具有相应的显著性图(第二行未标记,第三行标记)。第四行,样本图像的Grad-CAM 。比例尺5mm。SM:显著图saliency map;DAM:导管弓;AA:主动脉弓;SVC:上腔静脉;PA:肺动脉;TV:三尖瓣;AV: 主动脉瓣;MV: 二尖瓣; IVS: 室间隔;IAS: 房室间隔(卵圆孔);RA: 右心房;RV: 右心室;LA:左心房;DAo:降主动脉;LV: 左心室;UV: 脐静脉; IVC:下腔静脉。 然后研究人员在OB-125上测试了视图分类器(图2d,e)。当存在符合诊断质量的目标视图时,视图分类器发现它们具有90%的敏感性(95%CI,90%)和78%的特异性(95%CI,77–78%)。 如果仅使用预测概率在**个四分位数或以上的图像,敏感性和特异性分别增加到96%和92%(95%CI,96%和92–93%)。 推荐的视图并不总是出现在每个胎儿调查中,更常见于正常研究中(图2f)。视图分类器**的混淆是3VT和3VV(图2d),相邻视图通常也会导致临床不确定性。 为了验证视图分类器是否使用了与临床相关的特征,研究人员对测试图像进行了显著性映射和梯度加权类激活映射Grad-CAM实验, 以显示对分类器决策最重要的像素(显著性映射)或区域(Grad-CAM)。两个实验都表明视图分类器基于临床相关的图像特征进行决策(图2g)。 正常与复杂冠心病的分类 研究人员训练了同样的卷积神经网络结构,用于对五个视图类别中的每个类别的正常心脏和冠心病进行分类(二进制“DL-dx分类器”,图1b)。 胎儿-125的AUC范围为0.72(ABDO)到0.88(3VV和A4C);图3a)。在所有测试数据集中,ABDO视图的AUC反映了临床发现:腹部视图对冠心病诊断最不起有用。 对于每一个心脏,我们通过将基于规则的分类器(“复合dx分类器”图1b)应用于基本上是加权平均(方法和扩展数据图1c)的每幅图像、每视图预测,得出了正常心脏与冠心病对比的综合诊断决策。 图3:集成模型诊断步骤的性能。 对于胎儿-125测试数据集中每五个视图组,ROC曲线显示了模型区分正常心脏与表1中提到的任何冠心病病变、正常心脏(NL)与TOF、以及NL与HLHS(c)的能力。 a、区分正常心脏与冠心病病变 b、正常心脏(NL)与TOF c、NL与HLHS d、从外部数据预测每一次视图正常与异常心脏的ROC曲线(BCH-400测试集)。 e、 四个测试数据集的正常和异常心脏的复合(每个心脏)预测ROC曲线。“OB-4000”表示来自OB-4000测试集的高置信度目标图像(视图预测概率等于或高于**个四分位数的图像)。 f、 OB-125组不同检测方案下正常心脏与冠心病的复合(每颗心脏)预测的ROC曲线。OB-125*,包括所有可能的图像。OB-125†,仅显示五张图像, 每个视图一张图像(青色线表示模型性能;蓝点表示临床医生的表现)。OB-125‡,低质量图像。OB-125§, 视图分类中6.5%的视图模拟错误(平均三次重复)。 g、 提供给模型和临床医生的图像示例,用于在面对面的直接比较中确定正常和异常心脏。 h、 最上面一行显示了正常心脏、TOF和HLHS的一个示例测试图像;显示3VV和A4C视图。第二行,对应的未标记显著性图。第三行,标记为显著图。 第四行,Grad-CAM提供了图像中对预测模型最重要的区域的热图。 在3VV中,主动脉和肺动脉的相对大小将这些病变与正常心脏区分开来;在A4C中,倾斜的室间隔和增大的右心分别区分了TOF和HLHS与正常心脏。比例尺5 mm。 使用这种方法,我们在胎儿-125、OB-125、OB-4000和BCH-400上分别获得了0.98、0.93、0.99和0.89的AUC,用于区分正常和异常心脏(图3e)(为了获得OB-4000的AUC,在复合诊断分类器中仅使用了视图预测概率高于**个四分位数的图像)。 这使得OB-4000的敏感性为95%(95%CI,83–99%),特异性为96%(95%CI,95–97%),阳性预测值为20%(95%CI,17–23%),阴性预测值为100%。 这些和下面讨论的其他测试方案的性能总结在图3f和补充表2中;值得注意的是,我们比较了OB-125组的测试场景, 1. 所有图像(不考虑视图预测概率)用于诊断, 2. 仅使用真正的正面视图, 3. 仅使用视图预测概率高于**个四分位数的图像, 4. 一部分真实的正面视图被有意地混在一起以模拟视图错误分类。 总的来说,胎儿超声心动图的模型敏感性可与几篇论文中引用的模型敏感性相媲美(P值,0.3,假设文献中的测量值为正态分布)。 更重要的是,胎儿调查的模型敏感性和特异性明显优于报告的表现(P值分别为0.002和0.04)。 虽然临床医生对整个超声研究的解释是我们测试和培训的金标准,但我们也希望通过给每位临床医生进行以下测试,直接进行个案对比,比较模型在胎儿检查(OB-125)上的表现与临床医生的表现: 每个视图一张全分辨率图像,每个心脏总共只有五张图像(图3g)。选择这项测试是为了使这项任务对人类可行,并且考虑到不同机构之间图像采集协议的潜在差异,模拟只获取最小建议视图的“精练协议”。 OB-125组中,125项胎儿检查中的38项(30%)包含了所有5种视图。在这个测试中,模型达到88%的敏感性(95%CI,47-100%)和90%的特异性(95%CI,73-98%)。 临床医生(n = 7) 平均敏感性为86%(95%CI,82–90%),特异性为68%(95%CI,64–72%)(图3f)。 在敏感性方面,模型与临床医生具有可比性,P = 0.3,在特异性方面,模型优于临床医生,P =0.04。 我们在一个非附属的、地理位置偏远的、冠心病高发的医疗中心(BCH-400;表1)验证了该模型的适用性。 正常心脏视野检测的AUC范围为0.95至0.99(未显示)。正常与异常心脏的综合分类AUC为0.89,尽管在该测试集中异常心脏的患病率很高(图3e和补充表2)。 多胎妊娠比一般人群有更高的冠心病风险。因此,一个适用于2胎和其他多胎妊娠的CHD检测模型将是有用的。 基于显著性映射和梯度Grad-CAM 实验(图2g和3h),我们假设我们的模型可以在双胞胎的调查中充分发挥作用。 我们使用我们的模型来预测10对双胞胎的视图和诊断(twins-10测试集;n = 20胎),包括法洛四联症(TOF)和左心发育不良综合征(HLHS)。 敏感性和特异性分别为100%和72%(补充表2)。 模型应该对图像质量的微小变化具有鲁棒性,对患者和医疗中心有用。因此,我们对OB-125内的图像进行了模型性能评估,专家临床医生没有将其标记为高质量视图,但模型确实分类为目标视图(图2d,f)。 我们直接检查了这些“假阳性”图像,并分析了它们的预测概率。概率分布≥0.9的视图,三分之二(66%)实际上是目标视图,但图像质量比专家选用的低(例如,稍微偏离轴,严重阴影), 并且这些低质量目标视图中的大多数(59%)具有概率≥0.9(扩展数据图3)。因此,该模型可以适当地检测出质量较低的目标视图。我们将这些低质量的靶图像用于诊断预测,发现敏感性为95%(95%CI,83–99%),特异性为39%(95%CI,28–50%)。 因此,集成模型可以利用胎儿检查中的次优图像来检测复杂的冠心病,尽管特异性较低。 与上面的视图分类一样,我们进行了一些分析,以确定诊断分类是否基于临床相关的图像特征。 我们为数据集中两种最常见的病变(TOF和HLHS)训练了一组逐视图二值分类器,并检查了受试者操作特征(ROC)曲线、显著性图和梯度Grad-CAM 实验。 对于TOF,在临床上最容易观察到TOF的两个视图中,AUC最高:3VT和3VV(图3b)。对于HLHS,3VT、3VV、LVOT和A4C均异常,与图3c中较高的AUC值一致。 显著性映射和梯度Grad-CAM 实验突出显示与区分这些病变和正常心脏相关的像素和图像区域(图3h)。 在临床实践中,TOF和HLHS的检测灵敏度分别低至50%和30%。在我们的模型中,TOF和HLHS的灵敏度分别为71%和89%(特异性分别为89%和92%;补充表2)。 诊断错误分类的例子可以在扩展数据图4中找到。 胎儿生物特征分割 生物测量有助于胎儿先天性心脏病的筛查和诊断。因此,我们训练了一个改进的U-Net来寻找A4C图像中的心胸结构,并使用这些分割的结构来计算每个心腔的CTR、CA和FAC(表2和图4)。 来自加州大学旧金山分校的正常、TOF和HLHS心脏作为代表参加了训练和测试。 图4:利用集成模型的分割功能,分析胎儿心脏结构和功能测量。 每类Jaccard相似性测量标记和预测分段重叠的情况见补充表3。可以预见,对于更高代表性的像素类(例如背景)而言,Jaccard值较高,并且与labeler Jaccard内值(范围0.53–0.98)相似;平均值,0.76)。图4示出分段结构的示例标签和预测。 深度学习的方法 下面的方法描述了数据集、数据处理、算法和性能度量。 数据集集合 所有数据集均符合加州大学旧金山分校UCSF机构审查委员会和波士顿儿童医院机构审查委员会的审查标准。 研究设计、训练和测试数据集 概述: UCSF的原始数据分为训练数据集(胎儿超声心动图和胎儿筛查超声的混合)和胎儿超声心动图的胎儿-125测试集(**测试集)。 第二个测试集OB-125来自UCSF胎儿筛查超声,与来自胎儿-125的超声心动图相对应。 额外的正常胎儿筛查超声被添加到OB-125,以创建第三个测试集OB-4000。 接下来,从波士顿儿童医院获得胎儿超声心动图以制作第四个测试集,BCH-400。 第五组测试包括10对双胞胎(Twins-10)。训练和测试集没有重叠的图像、病人或研究对象。 在测试数据集中,胎儿-125和OB-125测试集通过设计,代表来自相同患者的胎儿超声心动图和胎儿筛查超声,OB-125是OB-4000的一部分。 这些信息总结在补充表1中;关于这些数据集的详细信息如下。 所有模型和胎儿-125(**个测试集)的训练集的UCSF源数据 我们的数据来源于加州大学旧金山分校所有符合上述冠心病纳入和排除标准的胎儿超声心动图(n = 437个研究对象)。 然后我们随机抽取一份正常的UCSF胎儿超声心动图样本(n = 875个研究对象),因此冠心病研究约占个体的30%。这样是为了保持冠心病与正常心脏研究的相对平衡。 我们使用了来自胎儿超声心动图的轴向视频和静态图像片段。我们还囊括了139个随机选择的正常胎儿筛查超声研究的所有图像,包括筛查中发现的一系列非靶图像。 这些数据共同构成了用于训练和初始测试(**个测试集)的UCSF源数据。 从这个数据源中,我们使用139例胎儿超声筛查,787例正常胎儿超声心动图和400例冠心病超声心动图进行训练(n = 全部1326个研究对象;正常组69841张图片,异常组102974张;表1)。 剩下的88例正常超声心动图和37例冠心病超声心动图组成了**组,胎儿-125组(n = 125; 11445张正常图像和8377张异常图像)。 OB-125测试集(第二测试集) 我们从胎儿-125中的相同患者中获得相应的胎儿筛查超声,以创建OB-125测试集。使用每个研究的所有图像帧(220990个正常图像和108415个异常图像)。 OB-4000测试集(第三测试集) 为了建立一套加州大学旧金山分校UCSF的胎儿超声筛查测试集,其冠心病患病率与标准人群相似,我们从OB-125开始,增加了3983项正常胎儿调查,使得OB-125中的冠心病病变占总数据集4108项调查的0.9%。结果为OB-4000组(4473852张图像;4365437正常和108415异常)。 BCH-400测试集(第四测试集) 作为一个外部测试集,我们从波士顿儿童医院接收了423个胎儿超声心动图(来自32个正常心脏研究的4389个图像和来自391个异常心脏研究的40123个图像)。 TWINS-10测试集(第五测试集) 另外,我们获得了一组18-24周胎龄的10对双胞胎超声检查(5754个超声心动图图像)。8对双胞胎心脏正常;一对双胞胎有一个正常和一个TOF心脏;其中一对双胞胎有一颗正常的心脏和一颗HLHS心脏。 利用图像从训练集中训练不同的模型 使用上述整体训练数据集的图像来训练 (1)视图分类器, (2)每个目标视图的正常与异常诊断分类器, (3)分割模型。 对于所有的训练,使用的数据类比例大致相等。对于视图分类器,使用来自926个正常心脏的53532个图像。 在每视图诊断分类器中,来自916个正常心脏的46498张图像与来自400个异常心脏的54291张图像相结合(总共1316个研究和100,789张图像) (其中10张用于训练视图分类器的研究只有非目标视图,因此没有用于训练诊断分类器)。 对186个研究(122个正常人,25个HLHS,39个TOF)的1248个A4C图像进行心腔分割。 为了分割心脏和胸部,使用了223个研究对象(157个正常人,25个HLH,41个TOF)中的952个A4C图像。 临床医生进行图像标记 训练集的每个图像帧,胎儿-125,OB-125和BCH-400都由临床医生专家对视图进行标记(对于训练数据,临床医生不同意的视图图像被排除在训练之外)。 对于测试集,数据集的一部分由两个贴标者独立评分,以确保一致性(扩展数据图5)。因为OB-4000集对于这种方法来说太大了,在这项研究进行诊断分类之前,专家们只验证了每个超声研究的前五个预测视图,这些视图实际上包含了相关的视图(并且是正常的心脏)。 对于视图标记,根据临床指南,3VT、3VV、A4C和腹部视图来自胎儿胸部的轴向截面,而LVOT视图包括轴向和矢状LVOT图像。 对于分割标记,临床医生在A4C图像上手动追踪心胸结构(胸部、心脏、脊柱和四个心腔中的每一个)。 数据处理 如前所述,DICOM格式的图像被取消识别并转换为灰度。胸部的轴向扫描以300×400像素的分辨率被分割成多个组成帧。 对于视图分类任务,图像被标记为3VT、3VV、LVOT、A4C和ABDO。第六类被称为非靶点,包括任何胎儿图像,这些图像不是我们感兴趣的五个心脏视图之一。 对于疾病分类任务,研究被标记为符合上述正常心脏或冠心病CHD病变。 为了输入分类网络,在超声窗中心,每幅图像被裁剪成240 ×240像素,降低样本分辨率到80 × 80像素,并根据灰度值进行缩放(调整缩放强度)。 为了输入分割网络,图像被裁剪成272 × 272像素,以超声窗为中心,根据灰度值进行缩放。所有预处理步骤都使用了开源Python库OpenCV(https://opencv.org/), scikit-image(https://scikit-image.org/), 还有NumPy(https://numpy.org). 为了训练胎儿的结构和功能测量,使用OpenCV标记A4C图像中的胸部、心脏、右心房、右心室、左心房、左心室和脊柱。 模型结构和训练参数 分类模型 分类模型基于ResNet体系结构,并做了以下修改。对于视图分类, batch size 为32个样本,训练经过175次迭代, 使用Adam优化器和自适应学习率(0.0005,1-99次迭代;对于100–149次迭代,为0.0001,对于150次以上迭代,为0.00005)。 在最终完全连接层之前应用50%的Dropout。在运行时,通过应用多至10°的随机角度旋转,高斯模糊, 宽度和高度偏移高达总长度的20%,缩放高达50%, 在第二个和第98个百分位之间重新缩放图像强度以及垂直和/或水平翻转,来增加数据。 对于诊断分类,将迁移学习应用于前面描述的视图分类模型,如下所示:冻结前18层。 额外的训练使用上述数据集,除了年龄范围从12到60,每个模型的学习率是恒定的,没有使用自适应学习,学习率范围从0.00001到0.0001。 损失函数为分类交叉熵(视图分类器)或二元交叉熵(诊断分类器)。分类网络结构如扩展数据图1a所示。在模型优化过程中,采用三重交叉验证将训练数据细分为训练集和验证集。 将视图标签随机化的训练和验证数据集用作阴性对照,得到与类别间随机机会相称的F分数。 细分模型 带有临床医生标记的心胸结构(胸部、心脏、脊柱和四个心腔中的每一个)的A4C图像被用作U-Net神经网络结构的训练输入,如扩展数据图1b所示。 训练了两种不同的模型来检测(1)心脏、脊柱和胸部,(2)四个心腔。Batch size 大小为2,模型训练300-500个迭代,使用Adam优化器,自适应学习率为0.0001到0.00001。 为了扩展数据,宽度(偏移)设置为20%,缩放设置为15%,随机旋转最多25° 允许水平和/或垂直翻转。损失函数为分类交叉熵。 框架、训练和预测时间 所有模型都是在Python中,使用Keras(https://keras.io/,GitHub,2015)与TensorFlow(https://www.tensorflow.org/)后端完成的。 培训是在Amazon的EC2平台上用一个GPU实例“p2.xlarge”进行的,分段模型持续时间约为1.95–5h,分类模型在6分钟到4.6小时之间。 平均每幅图像的预计时间为,分类3 ms,分段50 ms,用标准笔记本电脑(2.6 GHz Intel core,16 GB内存)。 概率和计算 在分类中的应用预测概率 对于给定图像的每个分类决策,该模型计算出图像属于每个可能输出类的概率;默认情况下,图像会自动分配给概率最高的类。 在某些测试场景中,应用可接受预测概率的阈值来查看分类,如下所示。对于OB-4000“高置信度”视图,仅对视图预测概率大于胎儿-125测试集正确预测视图的**个四分位数的图像进行诊断分类。 对于OB-125“低质量”视图,使用的模型预测视图采用人不愿意选择作为诊断质量的图(结果和补充表2)。诊断分类的概率阈值也用于基于规则的复合诊断分类器中,如下所述。 综合诊断分类 研究人员开发了一种基于规则的分类器(“复合dx分类器”,图1b),将每一视图、每一图像的预测合并成一个单一的正常心脏与冠心病的复合决策。 在一个视图内的图像中,然后在各个视图中,基于规则的复合诊断分类器将CHD和正常心脏的预测概率相加,如下所示(扩展数据图1c)。 仅具有验证数据AUC>0.85的视图被采用。每个相关的心脏视图,对于数量不定的图像, 每个图像有一个PCHD/CHD概率;同时记录每幅图像正常心脏的概率,其中PNL = 1 − PCHD。 从四个视图中的三个(3VT,3VV,LVOT;由于交叉验证期间的高性能,A4C被排除在外)确定高通量阈值。 阈值是平均的Youden's J统计量,通过这三个单一视图模型的三次交叉验证计算得出。PCHD值低于高通阈值被重置为0,以避免高估冠心病CHD。 然后分别求出每个视图的PNL和PCHD值,以区分研究中出现的视图、正常视图和缺失视图,并且每个和值被所有预测的总和归一化,以说明每个视图类中不同数量的图像以获得视图特定的预测值。 请注意,“视图”是3VT、3VV、LVOT或A4C。每个视图的这些预测值依次相加,形成一个复合分类。用不同的偏移量值评估真阳性、假阳性、真阴性和假阴性,可以构建ROC曲线(图3e)。 心胸比率、心室面积分数变化和心脏轴的量化 CTR测量值为心围与胸围的比值。四个心腔的FAC计算为(**像素面积 − 最小像素面积)(**像素面积). CA计算值为以脊柱和胸部为中心的线与以左室或右室为中心的线之间的夹角,以面积**的一侧为准(选择以心室为中心的线作为寻找平行于室间隔的线的计算方法,用于临床和ground-truth标记)。 为了防止从分割结果较差的图像中计算临床值,进行了各种检查。使用Mann–Whitney U检验将预测定量测量的一致性与ground truth测量(标记图像和临床测量,如果可用)进行比较。 采用Kruskal-Wallis检验比较正常组、TOF组和HLHS组的测量结果。 扩展数据图1:神经网络结构和基于规则的分类器示意图。 模型评估 总体准确度、每类准确度、平均准确度、混淆矩阵、F分数、接受者操作特征、C统计量和显著性图(引导反向传播)的计算如前所述。 Grad CAM也如前所述。对于分割模型的性能分析,Jaccard相似度是以预测结构和标记结构的交集除以它们的并集来计算的。 与人类专家的比较 具有胎儿心脏病专业知识的临床医生(胎儿心脏病和母婴医学主治医师、经验丰富的胎儿心脏病超声医师、胎儿心脏病研究员,n = 7) , 在OB-125测试集的研究中,每个视图显示一张图像,并询问专家该研究是否正常。 对于分割,临床贴标者对图像子集进行多次分割,并计算贴标者内Jaccard相似度作为基准。使用临床医生进行验证被UCSF CHR视为豁免研究。 结束语 这项新的研究清楚地表明,机器学习算法有可能极大地提高心血管和产科成像的效率,可能对患者的额外成本最小。 最终,这些新技术的影响将取决于医学、科学和工业之间的持续沟通和协作,以开发出具有成本效益、易于使用和普遍可用的工具。 参考文献 An ensemble of neural networks provides expert-level prenatal detection of complex congenital heart disease Rima Arnaout, Lara Curran, Yili Zhao, Jami C. Levine, Erin Chinn & Anita J. Moon-Grady 相关阅读 |