(图片来源网络,侵删)
贾化平 编译,战略支援部队特色医学中心,超声医学科超声用于诊断乳腺病变已经超过40年近年来,已经证明,超声辅助乳房X光检查检测,可以改善乳腺癌检测的灵敏度,尤其是在年轻女性占多数的致密型乳腺随着剪切波弹性成像或造影增强超声等新技术的出现,乳腺超声成为检测可疑乳腺癌的重要手段与乳房X光检查相比,超声检查耗时长、操作者依赖性大,但超声没有电离辐射,软组织对比好,并可实时引导活检然而,乳腺筛查中加入超声检查,仍可能会产生大量的假阳性结果,一些研究报告乳腺超声的阳性预测值小于5%计算机辅助乳腺X射线照相术提高了检查的敏感性计算机辅助乳腺超声最近有一些很好的研究结果,但还没有得到临床认可并常规应用在过去的几年里,人工神经网络在广泛的任务中显示出令人信服的作用特别是深度学习,最近开启了工业制造革命性的质量控制,在缺陷检测和分类任务中展示出至少与人类似的能力深度学习在医学成像中的主要缺点之一是需要大量高质量的训练数据与乳腺X射线照相术相比,乳腺超声的问题更突出乳腺超声分辨力比乳腺X射线照相术低得多,且仅能显示了部分乳腺组织在这一点上,与工业生产线的质量控制是一个共同的问题,特定生产线的培训数据也非常有限因此,我们假设超声图像分析可能从通用的工业级深度学习软件的专利算法中获益Becker等用有限的一组乳腺超声图像,尝试训练一种通用的工业质量控制深度学习软件来诊断乳腺癌,并与具有乳腺影像经验的放射医生的诊断能力进行了比较文章于2018年2月发表于Br J Radiol杂志原文链接:https://www.ncbi.nlm.nih.gov/pubmed/292153111 资料和方法1.1 临床资料:回顾2014年本院所有接受乳腺超声检查的病例乳腺超声检查高度规范:全部使用Logiq E9超声诊断仪,9L线性探头,深度超过感兴趣,焦点放在病变处对于大的病变,使用多个焦点在本研究中,仅使用了灰阶图像排除标准:首先排除了所有正常的乳腺和明确为良性病变的乳腺,第二步排除了所有不能随访至24个月或未能经组织病理证实的病变1.2 深度学习分析:使用工业级图像分析软件(Vidi Suite v.2.0;Vidi Systems Inc,Villaz Saint Pierre,瑞士)进行图像分析,该软件采用最先进的深度学习算法技术识别和分类异常图像虽然目前尚未批准在临床常规使用,最近在两个中心乳腺影像检测恶性肿瘤的研究中展示了令人信服的结果深度学习或深度神经网络不同于传统的\"浅\"神经网络深度神经网络包含三个或更多隐藏层,而不是直接连接到输出神经元,可以解决更复杂的问题所有的计算在Geforce GTX 1080图形处理单元上执行两名研究人员对恶性病变的标记和轮廓钩划达成一致意见,以便进行监督培训随机选择一组图像(n=445,70%)对软件进行培训,其他病例(n=192)用于验证培训所得出的模型研究者用软件产生的概率热图定性评估神经网络检测到的可疑特征1.3 人工读取:验证图像(n=192)以随机顺序呈现给两名放射科医生,他们都不了解临床信息、研究背景或研究设计另有1名四年级医学生也被给予了训练图像,该学生没有乳腺方面的临床或研究经验,也没有从事过超声影像,并且没有收到过具体的指示图像被放在两个单独的文件夹中,一个用于良性病变,一个用于恶性病变,可供自由选择时间学习一次(n=445)预期学生会像软件一样只从数据中学习随后,学生像放射科医生那样对验证图像进行评分所有图像的评分均为5分制(大致相当于BI-RADS分类,5意味着患乳腺癌的概率大于98%)完整读出所需的时间需要注意,对于医学生的培训也是定时的1.4 统计分析:统计分析使用R V.ion 3.3.1软件连续变量用中位数和四分位间距表示,分类变量用计数或百分比表示由于计算机和人工读出时间有明显的差异,省略了相应统计用林氏一致性相关系数对二者的一致性进行评价用受试者工作特性曲线分析诊断性能诊断准确度用受试者工作特性曲线下面积(AUC)表示,并采用非参检验进行比较确定最优的截断值(Youden指数),计算灵敏度、特异度、阳性预告值及阴性预告值灵敏度及特异度采用McNemar检验进行统计分析2 结果2.1 研究队列:本研究共回顾3432例病例图像,最终确定632例纳入研究平均年龄为53±15岁在82例恶性病变中,多数为浸润性导管癌,共52例;在550例良性病变中,173例经组织病理学证实,其他377例随访至少24个月2.2 时间安排和阅片者间的一致性:训练集(445张图片)的神经网络训练时间为7分钟,医学生训练时间为48分钟验证集(192张图片)的读取时间分别为28分钟(阅片者1),22分钟(阅片者2)和25分钟(阅片者3)神经网络对检测集的处理时间为3.7 s经验丰富的阅片者之间的一致性最好,经验不足的的阅片者之间的一致性最差神经网络和有中等经验的阅片者之间的一致性最好2.3 诊断效能:神经网络诊断的准确性在训练集为AUC=0.96,在验证集为AUC=0.84,特异性为80.4%,灵敏度为84.2%阅片者和神经网络的AUC无显著差异随着阅片者经验增加,其诊断效能更优,尤其是特异性更高2.4 热图特征:神经网络比阅片者更容易把术后变化分类为恶性,尤其是有大片声影的情况下(图1)对病变大小或纹理的鉴别可能出现极少的假阴性(图2)另一方面,神经网络在某些情况下优于阅片者,如对良性小病变正确分类(图3)和恶性大病变(图4)有趣的是,神经网络对唯一的男性淋巴瘤(图4)给予正确分类值得注意的是,即使图像表现为一些术后改变的特点,神经网络仍能将未手术的良性病变给予正确分类(图5,图6)图1 女性,71岁,右乳房节段切除术后瘢痕最初被归类为BI-RADS 3类,随访28个月病变稳定,从而降低分类神经网络和两名放射科医生都认为病变为可能恶性,呈假阳性图2 罕见的假阴性病例,放射医生对恶性的判定优于神经网络女性,41岁,左乳扪及包块,初次分类为BI-RADS 5类,后证实为浸润性导管癌神经网络评定为可能良性,资深放射医生评定为可能恶性,医学生评定为不能确定良恶性图3 女性,60岁,最初右侧乳腺BI-RADS 4活检结果为囊肿两位放射科医生评估为不确定和恶性之间,医学生评估为良性神经网络将病变正确地分类为良性,避免不必要的活检图4 唯一的男性淋巴瘤患者,58岁,两位放射科医生认为是良性,神经网络评估为恶性有趣的是,医学生也认为病变为潜在恶性图5 60岁女性,病变最初分级为Bi-Rads 4,随访28个月后活检证实为纤维化所有阅片者都认为病变可能是恶性,只有神经网络对病变分类正确图6 55岁女性,左乳病变最初分类BI-RADS 4,活检为腺病神经网络正确分类为良性,避免了不必要的活检3 讨论本研究比较了工业级人工神经网络与人工读片对乳腺病变的分类诊断结果,发现神经网络只训练了几百个病例,即显示出与放射科医生相当的准确性神经网络已在其他领域显示出超越人类的潜力,如手写数字识别或表面纹理分类本研究中,神经网络与具有中级经验的阅片者的能力最相似,说明该软件的多功能性仍然以被经验更丰富的放射科医生超越为代价当前的软件评估每个图像花费数毫秒,可以为缺乏经验的医生提供帮助与乳腺X线造检查比,超声图像空间分辨率低,但这不会导致机器学习算法的性能下降原因之一可能是超声的软组织对比度更好因为乳房X光片是投影图像,每个像素实际上代表投影轴上的三维空间,相关信息可能被覆盖的生理结构所\"污染\"超声图像显示三维空间的一个薄层切片,聚焦感兴趣的病变区通常,神经网络需要以百万以上大量图像的训练数据,特别是在分辨率低的情况下本研究仅训练几百个图像即可获得类似人工读片的表现,预示未来可以根据特定医院的患者群体定制放射软件热图可作为特定的机构/患者群体的放射学教科书,帮助放射科医生决策本研究使用了监督培训途径,即对图像进行了人工标注可以想象,神经网络将可以在无人监督或半监督的情况下,从数据库(如PACS)抽取影像和病理报告进行自我训练本研究有一些局限性首先,由于病例入选标准严格,排除了大部分患者然而,这也降低了神经网络数据训练的参考偏差,避免得出对软件效能的错误判断另一个主要的局限性是研究病例仅为单中心的数百个病变,且大部分良性病变是疤痕组织因此,这个结果不能完全移植到其他患者群体作为回顾性研究,很难避免选择偏差,需要多中心前瞻性研究以验证本研究的结果第二,对于回顾性设计来说,本研究的样本量很小综上所述,本研究表明,应用通用的工业图像深度学习软件分析乳腺超声图像,诊断乳腺癌的准确度高、速度快,可与人工读片媲美,并可在超声检查期间进行实时分析在给予相同数量的培训数据条件下,软件比没有经验的人工读片者学习的更快、更好
0 评论