使用机器学习技术评定数字病理学图像中的特征的异质性的制作方法
admin
2023-05-26 09:27:29
0
该技术已申请专利。仅供学习研究,如用于商业用途,请联系技术所有人。 使用机器学习技术评定数字病理学图像中的特征的异质性的制作方法
使用机器学习技术评定数字病理学图像中的特征的异质性
1.优先权
2.本技术根据35u.s.c.
§
119(e)要求2020年7月15日提交的美国临时专利申请号63/052297的权益,该临时专利申请以引用方式并入本文。
技术领域
3.本公开整体涉及对数字病理学图像进行分类和评定在全切片图像中检测到的特征的异质性。
4.与其他非小细胞肺癌(nsclc)相比,肺腺鳞癌的预后较差。腺癌(adc)和鳞状细胞癌(scc)是常见类型的nsclc。腺鳞癌(asc)在同一肿瘤中具有adc和scc两者的特征。asc的发病率因研究而异,但估计占所有肺癌的0.4%至4%。这些癌症的诊断取决于若干因素,包括对肿瘤的充分采样、周密的审查和对组织学标准的客观解释。
5.某些基因突变与nsclc或其他类型的癌症有关。具有这些突变中的一种或多种可能影响医生建议的治疗类型。因此,识别患者的这些不同基因突变可影响治疗和患者结局。通常与nsclc相关联的基因突变包括肿瘤蛋白53(tp53)突变、kirsten大鼠肉瘤病毒致癌基因同源物(kras)突变、表皮生长因子受体(egfr)突变和间变性淋巴瘤激酶(alk)突变。
6.用于识别组织学结构(histology)(例如,adc癌症区域、scc癌症区域等)的当前技术或方法需要由病理医师或其他经训练的专家在数字病理学图像(例如,全切片图像)中进行人工识别。人工识别费时费力,并且有时难免出现人为错误。此外,通常无法仅从数字病理学图像人工识别肿瘤突变。因此,存在对用于在关于nsclc、其他癌症和其他病症的数字病理学图像中识别特征(包括组织学结构、突变或其他目标特征)的自动化技术或方法的期望。此外,存在对评定患有特定病症(例如,特定癌症)的患者的这些特征的异质性(这将实现对肿瘤生物学和患者对各种治疗的反应性的更好理解)的期望。


技术实现要素:

7.在特定实施例中,一种计算机实现方法包括:接收组织样品的数字病理学图像;以及将数字病理学图像细分为多个块。组织样品的数字病理学图像可以为来自被诊断患有非小细胞肺癌(nsclc)的患者的肿瘤样品的全切片扫描图像。在特定实施例中,数字病理学图像或全切片图像为苏木精和伊红(h&e)染色的图像。方法包括:对于每个块,识别在该块中检测到的图像特征,以及使用机器学习模型来生成与在块中识别的图像特征相对应的一个或多个标签。机器学习模型可以为深度学习神经网络。在一个实施例中,图像特征包括组织学结构,并且施加于块的一个或多个标签包括腺癌(adc)和鳞状细胞癌(scc)癌症区域。在另一个实施例中,图像特征指示基因突变或变体,并且施加于块的一个或多个标签包括kirsten大鼠肉瘤病毒致癌基因同源物(kras)突变、表皮生长因子受体(egfr)突变、间变性淋巴瘤激酶(alk)突变或肿瘤蛋白53(tp53)突变。方法包括:基于生成的标签,确定针对组织样品的异质性度量。如果组织样品由具有不同标签的混合物的块表示,则该组织样品被认为是异质的。异质性度量可用于评估组织样品中的识别的图像特征和对应标签的异质性
程度。方法进一步包括:基于异质性度量,生成对组织样品的评定。可以基于该评定来作出关于受试者是否符合条件参加测试针对特定医学病症的医学治疗方面的临床试验的确定。此外,可以基于该评定针对受试者确定一个或多个治疗选项。
8.在特定实施例中,数字病理学图像处理系统可以输出各种可视化(诸如基于块的图像标记),指示识别的特征和对应标签的异质性程度。基于块的标记可由病理医师使用,以使识别的图像特征可视化或评估机器学习模型。此外,基于块的标记可以帮助病理医师诊断或评定受试者或审查初始评定。基于块的标记可以基于识别的图像特征而生成,并且可以描绘组织样品中的识别的图像特征的可视化,诸如以差异化颜色编码显示与识别的图像特征相对应的标签中的每一个。在一个实施例中,可以使用显著性映射技术来生成基于块的标记。在特定实施例中,基于块的标记为包括多个区域的热图。多个区域中的每个区域与强度值相关联。多个区域中的一个或多个区域进一步与数字病理学图像的块的预测标签相关联。
9.在特定实施例中,数字病理学图像处理系统可以训练机器学习模型(例如,深度学习神经网络)以识别图像特征并生成与在来自数字病理学图像的多个块中示出的识别的图像特征(例如,组织学结构、突变等)相对应的标签。训练机器学习模型可以包括:访问分别与多个受试者(例如,来自nsclc患者的组织样品)相关联的多个数字病理学图像;识别多个数字病理学图像中的每一个中的肿瘤区域;将多个数字病理学图像细分为训练块集,其中该集中的每个训练块利用一个或多个特征进行分类,并利用与一个或多个特征相对应的一个或多个真实值标签进行注释;以及使用带有与块中示出的特征相对应的真实值标签的分类的块集来训练机器学习模型。真实值标签由临床医师提供。
10.在特定实施例中,数字病理学图像处理系统可以进一步测试机器学习模型的准确度或验证其训练,并基于验证更新该模型。测试和更新机器学习模型包括:访问特定受试者的特定数字病理学图像;将特定数字病理学图像细分为块集;对在块内检测到的第二图像特征进行识别和分类;使用经训练的机器学习模型,针对块集,生成与识别的第二图像特征相对应的预测标签集;对生成的预测标签集和与块集相关联的真实值标签进行比较;以及基于该比较,更新机器学习模型。更新机器学习模型可以包括:进一步训练机器学习模型。
11.使用机器学习模型或深度学习神经网络对图像特征(例如,组织学结构、基因突变等)进行分类,并在数字病理学(例如,h&e染色的)图像中生成对应标签(例如,突变类型、组织学结构亚型等),这在许多方面特别有利。一些优势可包括例如但不限于:1)减轻使用者(例如,病理医师、医生、临床专家等)人工评估数千个全切片图像和识别这些图像中的每一个中特征以供研究的负担;2)加快整体图像分类和评估过程,并且一旦模型经过充分训练,实际上就可以减少由人进行的手动分类和评估中有时可能引入的错误或错误机会;3)有助于识别以前未知的新生物标志物或特征;4)研究异质性在患者对治疗的反应中的作用;以及5)针对某些类型的分析,利用相对便宜且快速的h&e染色过程产生的图像,而非依赖昂贵且耗时的dna测序。
12.本文公开的实施例仅是示例,并且本公开的范围不限于此。本文的示例可以相对于特定类型的癌症(例如,肺癌、前列腺癌等)进行描述。这些描述仅作为示例而非进行限制,因为应用于所讨论的特定癌症的技术可以应用于其他类型的癌症和/或其他病症,而无需进行显著修改或背离本公开的技术。特定实施例可以包括本文公开的实施例的部件、元
件、特征、功能、操作或步骤中的全部、一些,或者不包括任何一者。根据本发明的实施例特别公开在针对方法、存储介质、系统和计算机程序产品的所附权利要求中,其中在一个权利要求类别中提及的任何特征(例如,方法)可以在另一个权利要求类别(例如,系统)中要求对其进行保护。仅出于形式原因选择所附权利要求中的从属物或引用物。但是,也可以要求保护任何因有意引用任何前述权利要求(特别是多个从属物)而产生的主题,因此无论在所附权利要求中选择的从属物如何,都可以公开并要求保护权利要求及其特征的任何组合。可以要求保护的主题不仅包括如所附权利要求中所列的特征的组合,还包括权利要求中的特征的任何其他组合,其中权利要求中提及的每个特征可以与权利要求中的任何其他特征或其他特征的组合相组合。此外,可以在单独的权利要求中和/或与本文描述或描绘的任何实施例或特征或与所附权利要求的任何特征的任何组合中,要求保护本文描述或描绘的任何实施例和特征。
附图说明
13.图1a至图1b示出了用于使用机器学习模型来识别数字病理学图像中的特征以及基于数字病理学图像中的识别的特征的异质性生成受试者评定的示例性过程。
14.图2a至图2b示出了用于使用机器学习模型来识别数字病理学图像中的特征以及基于数字病理学图像中的识别的特征的异质性生成受试者评定的另一示例性过程。
15.图3示出了包括数字病理学图像处理系统和数字病理学图像生成系统的示例性网络。
16.图4a至图4b示出了可以基于使用机器学习模型识别的图像特征和对应标签来生成的示例性可视化。
17.图4c示出了使用不同的可视化技术来使示例性数字病理学图像可视化。
18.图4d示出了利用显著性映射技术使图像可视化的示例。
19.图5a至图5b示出了训练机器学习模型以根据对块中描绘的图像特征的检测来对数字病理学图像的块进行分类的示例性实施例。
20.图6示出了基于两个不同采样数据的预测标签与真标签之间的示例性实验比较数据。
21.图7示出了用于使用机器学习模型来识别数字病理学图像中的特征以及基于数字病理学图像中的识别的特征的异质性生成受试者评定的示例性方法。
22.图8示出了用于训练和更新机器学习模型以根据对块中描绘的图像特征的检测来对数字病理学图像的块加标签或进行分类的示例性方法。
23.图9示出了示例性计算机系统。
具体实施方式
24.本发明的实施例包括一种用于检测取自受试者的样品的数字病理学图像中的各种特征(诸如组织学结构和突变)的自动化方法。本发明的实施例进一步包括自动化方法,用于评定数字病理学图像中描绘的这些特征的异质性,以生成对受试者的病症的评定,诸如某些病症(诸如癌症)的诊断和预后以及对针对某些病症的治疗的建议。在特定实施例中,一种示例性方法包括:使用机器学习模型(例如,深度学习神经网络)来产生图像特征的
全切片预测;生成与这些特征相对应的针对从全切片细分的块的标签;基于标签,计算异质性度量;以及基于计算的异质性度量,生成受试者评定,例如,诊断或预后。在一些实施例中,可以创建并使用基于块的标记(例如,热图、统计相关性、计数、阈值、编码等)来在识别组织样品内的特征方面评定机器学习模型。本发明的实施例可以包括:使用神经网络来开发此类基于块的标记;以及使用神经网络来开发基于块的标记的评估标准。这些实施例可有助于标准化和加速正确识别迄今为止难以识别的亚型和呈现标准的组合,并且因此产生更好的靶向疗法。此外,量化图像特征(例如,对应于组织学结构)在异质性肿瘤中的相对贡献的自动化技术将实现对肿瘤生物学的更好的理解。
25.在特定实施例中,训练机器学习模型或神经网络以对图像特征进行分类以及生成标签可以包括:基于来自患有某些病症类型的多个患者的组织样品(诸如来自nsclc患者的组织样品)的图像数据,训练该模型。可以在指定分辨率下扫描训练样品,并且图像数据可以包括由病理医师识别的肿瘤区。每个载玻片肿瘤区可以分为更小的块。例如,块可以具有512
×
512个像素的面积,其中原始图像可以为大约100,000
×
100,000个像素。可以使用全切片级标签来开发针对组织块的用于对在其中示出的图像特征进行识别和分类的分类器。可以从使用迁移学习和弱监督学习训练的卷积神经网络(cnn)导出分类器。
26.一旦机器学习模型(例如,深度学习神经网络)经过充分训练,该模型就可以应用于对未看见的测试图像或载玻片进行块级预测。该模型可以输出结果,包括通过选择在针对每个载玻片提取的所有块中预测的最常见特征(例如,组织学结构)来进行的全切片诊断。在一些实施例中,可以创建基于块的图像标记以按人类可解释的形式来表示单个组织样品内的所检测的特征(例如,组织学结构)的异质性程度或使其可视化。实施例可以进一步包括:输出可视化,包括对基于块的图像标记、网络和/或有助于块级分类决策的图像特征等的描绘。
27.现在将相对于图1a至图1b和图2a至图2b来描述使用机器学习技术来识别数字病理学图像(例如,h&e染色的图像)中的特征,包括组织学结构或突变。特别地,图1a至图1b示出和描述了用于使用深度学习神经网络从示例性数字病理学图像的块识别或提取组织学结构并评估所提取的组织学结构的异质性以诊断受试者或患者的肺癌病症的一个实施例。图2a至图2b示出和描述了用于使用深度学习神经网络从示例性数字病理学图像的块识别突变或基因变体并评估识别的突变的异质性以进行受试者评定的一个实施例。应当注意,这些图1a至图1b和图2a至图2b中的一些描述可重叠(例如,用于图像分类和异质性计算的过程),但是在图1a至图1b和图2a至图2b中的每一个中确定或生成的特征、标签、异质性度量和受试者评定均是不同的。这些图中的每一个均详细描述于下文。
28.图1a至图1b分别示出了用于使用机器学习模型来识别数字病理学图像中的特征以及基于数字病理学图像中的特征的异质性生成受试者评定的示例性过程100和150。具体地,图1a至图1b示出了使用深度学习神经网络从示例性数字病理学图像的块识别或提取特征(例如,组织学结构)以及评估所提取的组织学结构的异质性以诊断受试者或患者的肺癌病症。识别混合组织学亚型可以更好地选择对药物治疗有反应的患者/受试者,并阐明导致肿瘤异质性的生物学机制。图3示出了根据本文描述的一些实施例的交互计算机系统的网络300,其可用于使用深度学习神经网络来提取组织学结构并评估所提取的组织学结构的异质性。如图1a所示,在110处,数字病理学图像处理系统310接收组织样品的数字病理学图
像105。在特定实施例中,组织样品的数字病理学图像可以为来自被诊断患有非小细胞肺癌的受试者或患者的样品的全切片图像。在第一实施例中,本文讨论的数字病理学图像或全切片图像为h&e染色的图像或可以从来自被诊断患有非小细胞肺癌的患者的肿瘤样品的h&e制备物获得。使用h&e染色的图像的优势为获得该图像相对快速且成本相对较低,特别是与dna测序等其他技术相比,对于识别某些组织学结构而言,该等其他技术是昂贵且耗时的过程。应当理解,在不背离本公开内容的教导的情况下,也可以使用通过其他染色和成像技术产生的图像。数字病理学图像处理系统310可以从数字病理学图像生成系统320或其一个或多个部件接收数字病理学图像或全切片图像105。作为另一示例,数字病理学图像处理系统310可以从一个或多个使用者装置330接收数字病理学图像105。使用者装置330可以为经由一个或多个网络连接到数字病理学图像处理系统310的由病理医师或临床医师使用的计算机。使用者装置330的使用者可以使用使用者装置330来上传数字病理学图像105或指示一个或多个其他装置将数字病理学图像105提供给数字病理学图像处理系统310。
29.在某些实施例中,尽管未在图1a中示出,但是数字病理学图像处理系统310还可以对图像110进行肿瘤病灶分割。例如,可以在图像110中识别肿瘤区域(例如,疾病区)。在一个实施例中,数字病理学图像处理系统310可以在使用者的帮助下识别肿瘤区域。例如,数字病理学图像处理系统310使用单独的肿瘤分割算法或一种或多种机器学习技术来自动识别肿瘤区域。例如,可以由人类专家基于数字病理学图像集中的预先加标签或预先注释的肿瘤区域来训练机器学习模型。在一些实施例中,可以由病理医师、医生、临床专家、诊断肺癌(或与组织样品相关的另一目标癌症)方面的专家等手动选择肿瘤区域。进行肿瘤病灶分割是有利的,因为它消除了数字病理学图像110的对特征的评估没有贡献并且最终减少了有用信号的普遍性的不相关部分(例如,空白区域)。
30.在120处,数字病理学图像处理系统310(例如使用块生成模块311)将数字病理学图像105(具有识别的肿瘤区域)细分为多个块115a、115b、115c、...115n(在本文中也单独地或统一地称为115)。在一些情况下,细分图像105可以包括:将网格结构格式的图像瓦片式划分为小的图像片或块,如图1a所示。尽管被示出为出现在肿瘤病灶分割之后,但在特定实施例中,肿瘤病灶分割过程可以出现在将图像细分为块之后。
31.在130处,数字病理学图像处理系统310(例如使用块分类模块312)识别块中的每一个内的一个或多个图像特征,并且使用深度学习神经网络125来生成针对多个块115的与识别的图像特征相对应的多个标签135a、135b、135c、...135n(在本文中也单独地或统一地称为135)。在一些实施例中,通过识别如在本文别处所讨论的图像特征,数字病理学图像处理系统310可以对组织样品内的底层组织结构进行识别或分类。每个标签135可以指示、识别或表示特定图像特征,诸如非小细胞肺癌(nsclc)的类型。作为示例,对于块115a,块分类模块312生成对应标签135a,其指示在块115a中描绘的一个或多个图像特征与腺癌(adc)相关联;对于块115b,块分类模块312生成对应标签135b,其指示在块115b中描绘的一个或多个图像特征与鳞状细胞癌(scc)相关联;对于块115c,块分类模块312生成对应标签135c,其指示在块115b中描绘的一个或多个图像特征与scc相关联;并且对于块115n,块分类模块312生成对应标签135n,其指示在块115n中描绘的一个或多个图像特征与adc相关联。尽管在图1a中仅示出了两种类型的标签:adc和scc,但是应当注意,可以使用深度学习神经网络125来识别针对组织结构中的其他特征的其他类型的标签。
32.在特定实施例中,本文讨论的深度学习神经网络125为卷积神经网络,其可以使用迁移学习技术和弱监督学习技术基于inception v3和resnet18架构进行训练。应当理解,用于训练深度学习神经网络125的其他学习技术也是可能的并且在本公开的范围内。下文至少参考图5a至5b以及图8对以下进行了详细讨论:训练深度学习神经网络125以基于在块内识别的组织学结构对块进行分类。
33.图1b示出了用于基于通过图1a中的过程100生成的标签135来评估在数字病理学图像中(例如,在数字病理学图像的块中)识别的组织学结构的异质性以进行受试者评定的过程150。应当注意,类似于图1a,将针对在过程150中进行相应操作的各种计算部件或模块,参考图3。如所描绘,数字病理学图像处理系统310(例如使用图像可视化模块313)可以任选地将加标签的块(例如,块及其对应组织学结构)馈送到任选的可视化工具或应用程序160中。例如,图像可视化模块313可以将标签为adc 155a的块、标签为scc 155b的块、标签为scc 155c的块和标签为adc 155n的块连同数字病理学图像105一起馈送到可视化工具160中。在一些实施例中,图像可视化模块313和可视化工具160组合为单个部件或作为单个部件一起工作。在其他实施例中,图像可视化模块313和可视化工具160为单独的部件。
34.在一些实施例中,任选的可视化工具160(使用加标签的块155和整个数字病理学图像或全切片图像105)可以生成针对数字病理学图像的任选的基于块的标记(例如,热图、区域覆盖层)170。应当注意,可视化工具160和基于块的标记170以虚线示出以指示其为过程150的任选部分或部件并且可以用于或可以不用于评估本文讨论的异质性。在特定实施例中,基于块的标记170可以描绘组织样品内的组织学结构的可视化。可视化可以包括:以差异化颜色编码显示组织学结构,如图4a至图4b所描绘。举例来说但不进行限制,通过基于块的标记使组织样品中的不同组织学结构可视化可以包括:以蓝色显示adc癌症区域、以绿色显示scc癌症区域等。在特定实施例中,数字病理学图像处理系统310(例如使用图像可视化模块313)可以使用不同的可视化技术来生成本文讨论的基于块的标记。例如,图像可视化模块313可以使用以下中的一者或多者来生成可视化:梯度加权类激活映射(grad-cam)技术、评分加权类激活映射(score-cam)技术、遮挡映射技术和显著性映射技术。下文参考图4c来示出和讨论不同的可视化技术。在特定实施例中,图像可视化模块313使用显著性映射技术来生成基于块的标记170。
35.在175处,数字病理学图像处理系统310(例如使用异质性度量计算模块314)利用加标签的块155(例如,块及其相应标签)来计算在数字病理学图像中(例如,通过块)识别或从其提取的组织学结构的异质性度量。异质性度量可以能够评定癌症中的组织学结构的异质性。异质性度量可以包括组织学结构的异质性级别或程度的可量化测度。在特定实施例中,异质性度量可以量化每个组织学结构相对于给定组织样品中的其他组织学结构的相对比例。举例来说但不进行限制,异质性度量可以针对图1a中识别的adc和scc组织学结构指示组织样品(例如,患者的非小细胞肺癌图像)中的adc和scc癌症区域中的每一个的百分比。换句话说,异质性度量可以指示相对于组织样品中的总scc癌症区域存在多少总adc癌症区域。例如,异质性度量可以指示在给定组织样品中总共存在392个adc癌症区域和150个scc癌症区域。作为另一示例,异质性度量可以指示adc和scc癌症区域的相互关联性,以识别该等区域在样品中的分布方式。
36.在替代实施例中,异质性度量计算模块314可以基于本文讨论的基于块的标记来
计算异质性度量。例如,异质性度量模块314可以从图像可视化模块313接收基于块的标记并使用在基于块的标记中描绘的信息来计算异质性度量。作为示例,基于块的标记可以描绘组织样品内的标签(例如,adc、scc)中的每一个的分布或比例(例如,如图4a中所示),并且异质性度量计算模块314可以使用基于块的标记的该分布信息来计算异质性度量。在一些实施例中,基于块的标记可以对应于特征(例如,组织学结构)的异质性的块级评定。基于块的标记对于数字病理学图像可以是唯一的,或者可以被理解为与数字病理学图像的特征的异质性的模式或分类有关。
37.数字病理学图像处理系统310(例如使用输出生成模块316)基于异质性度量生成输出。在特定实施例中,输出可以包括基于计算的异质性度量的受试者评定180。受试者评定可以包括例如受试者诊断、受试者预后或如适用于操作者的特定用例的治疗建议。例如,基于指示图像特征(例如,组织学结构)和/或标签(例如,adc癌症区域、scc癌症区域)在给定组织样品中的异质性程度的异质性度量,输出生成模块316可以生成给定组织样品的适当评定。作为示例,该评定可以包括基于adc和scc癌症区域存在于患者的组织样品中的量的患者肺癌的严重性。作为另一示例,评定可以包括基于患者组织样品中存在的adc和scc癌症区域的存在或异质性的针对患者肺癌的最佳治疗选项。在一些实施例中,输出生成模块316可以提供受试者评定180以显示给使用者,诸如病理医师、医生、临床专家、诊断肺癌方面的专家、数字病理学图像处理系统310的操作者等。受试者评定180也可以提供给一个或多个使用者装置330。在一些实施例中,受试者评定180可用于预测受试者对各种治疗的反应性,预测一种或多种治疗选项对受试者的适当性,识别被预测为对受试者有效的治疗,和/或将受试者分配到临床试验内的适当组中。在一些实施例中,输出生成模块316可以基于评定180来输出关于受试者是否符合条件参加测试针对特定医学病症的医学治疗方面的临床试验的指示。
38.来自数字病理学图像处理系统310的输出可以按多种形式提供,包括由数字病理学图像处理系统做出的评估的简单叙述。还可以提供更高级的输出。作为示例,数字病理学图像处理系统310可以生成本文讨论的识别的组织学结构的不同可视化。例如,数字病理学图像处理系统310可以生成描绘各种组织学结构的总体图,如图4a所示。作为另一示例,数字病理学图像处理系统310可以生成针对每个组织学结构的单独的图,如图4b所示。
39.图2a至图2b分别示出了用于使用机器学习模型来识别数字病理学图像中的特征以及基于数字病理学图像中的特征的异质性生成受试者评定的另一示例性过程200和250。具体地,图2a至图2b示出了使用深度学习神经网络从示例性数字病理学图像的块识别特征(例如,基因突变或变体)以及评估识别的突变的异质性以诊断受试者或患者的病症。图3示出了交互计算机系统的网络300,根据本文描述的一些实施例的,其可以用于使用深度学习神经网络从示例性数字病理学图像的块识别基因突变或变体并评估识别的突变的异质性。如前所述,病理医师无法直接从h&e图像预测突变状态,并且可能依赖于昂贵且耗时的dna测序。因此,使用本文讨论的机器学习技术来预测突变或突变状态比使用dna测序技术显著更快和更高效。
40.如图2a所示,在210处,数字病理学图像处理系统310接收组织样品的数字病理学图像205。在特定实施例中,组织样品的数字病理学图像可以为来自被诊断患有非小细胞肺癌的受试者或患者的样品的全切片图像。在主要实施例中,本文讨论的数字病理学图像或
全切片图像为h&e染色的图像,或者可以从来自被诊断患有非小细胞肺癌的患者的肿瘤样品的h&e制备物获得。数字病理学图像处理系统310可以从数字病理学图像生成系统320或其一个或多个部件接收数字病理学图像或全切片图像205。作为另一示例,数字病理学图像处理系统310可以从一个或多个使用者装置330接收数字病理学图像205。使用者装置330可以为经由一个或多个网络连接到数字病理学图像处理系统310的由病理医师或临床医师使用的计算机。使用者装置330的使用者可以使用使用者装置330来上传数字病理学图像205或指示一个或多个其他装置将数字病理学图像205提供给数字病理学图像处理系统310。
41.在某些实施例中,尽管未在图2a中示出,但是数字病理学图像处理系统310还可以对图像210进行肿瘤病灶分割。例如,可以在图像210中识别肿瘤区域或区。在一个实施例中,数字病理学图像处理系统310使用单独的肿瘤病灶分割算法或一种或多种机器学习技术来自动识别肿瘤区域。在一个实施例中,数字病理学图像处理系统310可以在使用者的帮助下识别肿瘤区域。例如,可以由病理医师、医生、临床专家、诊断肺癌方面的专家等手动选择肿瘤区域。在220处,数字病理学图像处理系统310(例如使用块生成模块311)将数字病理学图像205(具有识别的肿瘤区域)细分为多个块或图像片215a、215b、215c、...215n(在本文中也单独地或统一地称为215)。
42.在230处,数字病理学图像处理系统310(例如使用块分类模块312)识别块中的每一个内的一个或多个图像特征,并且使用深度学习神经网络225来生成针对多个块215的与识别的图像特征相对应的多个标签235a、235b、235c、...235n(在本文中也单独地或统一地称为235)。每个标签235可以指示、识别或预测特定的突变类型或基因变体。作为示例,对于块215a,块分类模块312生成对应标签235a,其指示在块215a中描绘的一个或多个图像特征与kras突变相关联;对于块215b,块分类模块312生成对应标签235b,其指示在块115b中描绘的一个或多个图像特征与表皮生长因子受体(egfr)相关联;对于块115c,块分类模块312生成对应标签235c,其指示在块215b中描绘的一个或多个图像特征与kras突变相关联;并且对于块215n,块分类模块312生成对应标签235n,其指示在块215n中描绘的一个或多个图像特征与egfr突变相关联。尽管在图2a中仅示出了两种类型的标签或突变kras和egfr,但是应当注意,可以使用深度学习神经网络225来针对块类似地识别其他类型的突变或基因变体。
43.图2b示出了用于基于通过图2a中如上所述的的过程200生成的标签235来评估在数字病理学图像中(例如,在数字病理学图像的块中)识别的突变的异质性以进行受试者评定的过程250。应当注意,类似于图2a,将针对在过程250中进行相应操作的各种计算部件或模块,参考图3。如所描绘,数字病理学图像处理系统310(例如使用图像可视化模块313)可以将加标签的块(例如,块及指示其描绘的对应突变的注释)馈送到任选的可视化工具或应用程序260中。例如,图像可视化模块313可以将标签为adc 255a的块、标签为scc 255b的块、标签为kras 255c的块、标签为egfr 255n的块和剩余块连同数字病理学图像205一起馈送到可视化工具260中。在一些实施例中,图像可视化模块313和可视化工具260组合为单个部件或作为单个部件一起工作。在其他实施例中,图像可视化模块313和可视化工具260为单独的部件。
44.在265处,任选的可视化工具260(使用加标签的块255和整个数字病理学图像或全切片图像205)可以生成针对数字病理学图像的基于块的标记270。应当注意,可视化工具
260和基于块的标记270以虚线示出以指示其为过程250的任选部分或部件并且可以用于或可以不用于评估本文讨论的异质性。在特定实施例中,基于块的标记或热图270可以描绘组织样品内的突变的可视化。可视化可以包括:以差异化颜色编码显示预测的突变或基因变体。在特定实施例中,数字病理学图像处理系统310(例如使用图像可视化模块313)可以使用不同的可视化技术来生成本文讨论的基于块的标记。例如,图像可视化模块313可以使用以下中的一者或多者来生成可视化:grad-cam技术、score-cam技术、遮挡映射技术或显著性映射技术。下文参考图4c来示出和讨论不同的可视化技术。在特定实施例中,图像可视化模块313使用显著性映射技术来生成基于块的标记270。
45.在275处,数字病理学图像处理系统310(例如使用异质性度量计算模块314)利用加标签的块255(例如,块及其对应标签)来计算在数字病理学图像中(例如,通过块)识别的突变的异质性度量。异质性度量可以包括突变的异质性级别或程度的可量化测度。在特定实施例中,异质性度量可以量化每个突变相对于给定组织样品中的其他突变的相对比例。举例来说但不进行限制,异质性度量可以针对图2a中识别的kras和egfr突变指示组织样品(例如,患者的非小细胞肺癌图像)中的kras和egfr突变中的每一个的分布百分比。异质性度量可以指示同一肿瘤中存在具有不同突变的区域。这很重要,因为如果肿瘤存在没有特定突变的一些区域,则接受对具有特定突变的该肿瘤有效的靶向疗法的患者可能没有反应,或者以后会复发。
46.数字病理学图像处理系统310(例如使用输出生成模块316)基于异质性度量生成输出。在特定实施例中,输出可以包括基于计算的异质性度量的受试者评定180。受试者评定可以包括例如受试者诊断、受试者预后或如适用于操作者的特定用例的治疗建议。例如,基于指示各种特征(例如,突变)在给定组织样品中的异质性程度的异质性度量,输出生成模块316可以生成给定组织样品的适当评定。作为示例,该评定可以包括基于患者的组织样品中存在的kras和egfr基因突变的存在或异质性的针对患者的肺癌的适当治疗选项。在一些实施例中,输出生成模块316可以提供受试者评定280以显示给使用者,诸如病理医师、医生、临床专家、诊断肺癌方面的专家、数字病理学图像处理系统310的操作者等。受试者评定280也可以提供给一个或多个使用者装置330。在一些实施例中,受试者评定280可用于预测受试者对各种治疗的反应性,识别被预测为对受试者有效的治疗,和/或将受试者分配到临床试验内的适当组中。在一些实施例中,输出生成模块316可以基于评定280来输出关于受试者是否符合条件参加测试针对特定医学病症的医学治疗方面的临床试验的指示。
47.图3示出了交互计算机系统的网络300,如本文所述,其可以用于识别数字病理学图像的块中的特征,使用深度学习技术来生成针对识别的特征的标签,以及根据本公开的一些实施例,基于数字病理学图像中的识别的特征的异质性来生成评定。
48.数字病理学图像生成系统320可以生成与特定样品相对应的一个或多个数字病理学图像,包括但不限于全切片图像。例如,由数字病理图像生成系统320生成的图像可以包括要经呈现以进行预处理的活检样品的染色切片或活检样品的未染色切片。又如,由数字病理图像生成系统320生成的图像可以包括液体样品的载玻片图像(例如,血涂片)。作为另一示例,由数字病理图像生成系统320生成的图像可以包括荧光显微图,诸如描绘荧光探针已经与靶dna或rna序列结合之后的荧光原位杂交(fish)的全切片图像。
49.一些类型的样品可以由样品制备系统321处理以固定和/或包埋该样品。样品制备
系统321可以促进用固定剂(例如,液体固定剂,诸如甲醛溶液)和/或包埋物质(例如,组织学蜡)浸润样品。例如,样品固定子系统可以通过将样品暴露于固定剂达至少阈值时间量(例如,至少3小时、至少6小时或至少12小时)来固定样品。脱水子系统可以使样品脱水(例如,通过将固定样品和/或固定样品的一部分暴露于一种或多种乙醇溶液)并可能使用清除中间剂(例如,其包括乙醇和组织学蜡)来清除脱水的样品。样品包埋子系统可以用加热的(例如,因此呈液体状)组织学石蜡来浸润样品(例如,一次或多次达对应的预定义时间段)。组织学蜡可以包含石蜡和可能的一种或多种树脂(例如,苯乙烯或聚乙烯)。然后可以冷却样品和蜡,然后可以将经蜡浸润的样品封闭。
50.样品切片器322可以接收固定和包埋的样品并且可以产生一组切片。样品切片器322可以将固定和包埋的样品暴露在凉爽或寒冷的温度下。样品切片器322然后可以切割冷却的样品(或其修整版本)以产生一组切片。每个切片可以具有(例如)小于100μm、小于50μm、小于10μm或小于5μm的厚度。每个切片可以具有(例如)大于0.1μm、大于1μm、大于2μm或大于4μm的厚度。冷却的样品的切割可以在温水浴(例如,处于至少30℃、至少35℃或至少40℃的温度)中进行。
51.自动化染色系统323可以通过将每个切片暴露于一种或多种染色剂来促进对一个或多个样品切片的染色。每个切片可以被暴露于预定义体积的染色剂达预定义时间段。在一些情况下,单个切片被同时或依次暴露于多种染色剂。
52.可以将一个或多个染色切片中的每一个呈现给图像扫描仪324,该图像扫描仪可以捕获该切片的数字图像。图像扫描仪324可以包括显微镜相机。图像扫描仪324可以多个放大级(例如,使用10x物镜、20x物镜、40x物镜等)来捕获数字图像。对图像的操纵可以用于在期望的放大倍数范围内捕获样品的选定部分。图像扫描仪324可以进一步捕获由人类操作者识别的注释和/或形态测量结果。在一些情况下,在捕获一个或多个图像之后,切片被返回到自动化染色系统323,使得切片可以被清洗、暴露于一种或多种其他染色剂并再次成像。当使用多种染色剂时,可以选择染色剂具有不同颜色配置文件,从而可以将图像的与吸收大量第一染色剂的第一切片部分相对应的第一区域与图像(或不同的图像)的与吸收大量第二染色剂的第二切片部分相对应的第二区域区分开来。
53.应当理解,在一些情况下,数字病理图像生成系统320的一个或多个部件可以结合人类操作者进行操作。例如,人类操作者可以跨各种子系统(例如,样品制备系统321或数字病理图像生成系统320的子系统)移动样品和/或启动或终止数字病理图像生成系统320的一个或多个子系统、系统或部件的操作。作为另一示例,数字病理图像生成系统的一个或多个部件(例如,样品制备系统321的一个或多个子系统)的一部分或全部可以部分或全部用人类操作者的动作代替。
54.此外,应当理解,虽然数字病理图像生成系统320的各种所描述和描绘的功能和部件涉及固体和/或活检样品的处理,但其他实施例可以涉及液体样品(例如,血液样品)。例如,数字病理图像生成系统320可以接收液体样品(例如,血液或尿液)载玻片,其包括基础载玻片、涂抹的液体样品和盖玻片。图像扫描仪324然后可以捕获样品载玻片的图像。数字病理图像生成系统320的其他实施例可以涉及使用本文描述的fish等高级成像技术来捕获样品的图像。例如,一旦荧光探针已被引入样品并使其与靶序列结合,就可以使用适当的成像来捕获样品的图像以供进一步分析。
55.给定样品可以在处理和成像期间与一个或多个使用者(例如,一个或多个医师、实验室技术人员和/或医疗提供者)相关联。相关联的提供者可以包括(例如但不限于)订购产生被成像样品的测试或活检的人、有权接收测试或活检的结果的人或进行对测试或活检样品的分析的人等。例如,使用者可以对应于医师、病理医师、临床医师或受试者。使用者可以使用一个或多个使用者装置330来提交以下一个或多个请求(例如,其识别受试者):由数字病理图像生成系统320处理样品并且由数字病理图像处理系统310处理所得图像。
56.数字病理学图像生成系统320可以将由图像扫描仪324产生的图像传输回使用者装置330。使用者装置330随后与数字病理学图像处理系统310通信以启动图像的自动化处理。在特定实施例中,在由样品制备系统321、样品切片器322、自动化染色系统323或图像扫描仪324中的一者或多者处理之后如此产生的图像可以为h&e染色的图像或通过类似染色过程产生的图像。在一些情况下,数字病理图像生成系统320将由图像扫描仪324产生的图像(h&e染色的图像)直接提供给数字病理图像处理系统310,例如在使用者装置330的使用者的指示下。尽管未示出,但也可以使用其他中间装置(例如,连接到数字病理图像生成系统320或数字病理图像处理系统310的服务器的数据存储区)。除此之外,为了简单起见,在网络300中仅示出了一个数字病理图像处理系统310、图像生成系统320和使用者装置330。本公开预期使用每种类型的系统及其部件中的一者或多者而不至于背离本公开的教导。
57.图3中所示的网络300和相关联的系统可以用于其中扫描和评估数字病理学图像(诸如全切片图像)是工作的重要组成部分的各种环境中。作为示例,网络300可以与其中使用者出于可能的诊断目的评估样品的临床环境相关联。在将图像提供给数字病理学图像处理系统310之前,使用者可以使用使用者装置330来审查该图像。使用者可以将附加信息提供给数字病理学图像处理系统310,该附加信息可以用于引导或指导数字病理学图像处理系统310对图像的分析。例如,使用者可以提供对扫描图内的特征的预期诊断或初步评定。使用者还可以提供附加背景,诸如被审查的组织的类型。作为另一示例,网络300可以与其中组织正被检查的实验室环境相关联,例如,以确定药物的功效或潜在的副作用。在这种情况下,多种类型的组织被提交进行审查以确定所述药物对全身的影响可能是常事。这可能对人类扫描审查者提出特别的挑战,他们可能需要确定图像的各种背景,这可能高度取决于被成像的组织的类型。这些背景可以任选地被提供给数字病理学图像处理系统310。
58.数字病理学图像处理系统310可以处理数字病理学图像(包括全切片图像或h&e染色的图像),以对数字病理学图像中的特征进行分类,并生成针对数字病理学图像中的分类特征的标签/注释以及相关输出,如上文例如参考图1a至图1b和图2a至图2b所讨论。块生成模块311可以定义针对每个数字病理学的块集。为了定义块集,块生成模块311可以将数字病理学图像细分为块集。如本文所体现,块可以是非重叠的(例如,每个块包括图像的不包括在任何其他块中的像素)或重叠的(例如,每个块包括图像的包括在至少一个其他块中的一部分像素)。除了每个块的大小和窗口的步长(例如,块与后续块之间的图像距离或像素)之外,块是否重叠等特征也可以增加或减少用于分析的数据集,其中更多的块(例如,通过重叠或更小的块)增加最终输出和可视化的潜在分辨率,并导致用于训练目的的数据集更大且更多样化。在一些情况下,块生成模块311定义针对图像的块集,其中每个块具有预定义大小和/或块之间的偏移是预定义的。此外,块生成模块311可以针对每个图像创建具有不同大小、重叠、步长等的多个块集。在一些实施例中,数字病理学图像本身可以包含可以
由成像技术产生块重叠。即使没有块重叠的分割也可以为平衡块处理要求的优选解决方案。可以例如通过以下来确定块大小或块偏移:针对每个大小/偏移计算一个或多个性能度量(例如,精确度、召回率、准确度和/或误差),以及通过选择与高于预定阈值的一个或多个性能指标相关联和/或与一个或多个最佳(例如,高精确度、最高召回率、最高准确度和/或最低误差)性能度量相关联的块大小和/或偏移。块生成模块311可以进一步根据被检测的病症的类型来定义块大小。例如,块生成模块311可以被配置成察觉数字病理学图像处理系统310将搜索的组织学结构或突变的类型,并且可以根据组织学结构或突变来自定义块大小以优化检测。在一些情况下,块生成模块311定义了块集,其中针对每个图像定义了该集中的块数量、该集的块的大小、针对该集的块分辨率或其他相关属性,并将其保持为对一个或多个图像中的每一个不变。
59.在一些实施例中,块生成模块311可以进一步将针对每个数字病理学图像的块集定义为沿着一个或多个颜色通道或颜色组合。作为示例,由数字病理学图像处理系统310接收的数字病理学图像可以包括大幅面多色通道图像,其针对图像的每个像素的像素颜色值被指定用于多个颜色通道中的一个。可以使用的示例性颜色规范或颜色空间包括rgb、cmyk、hsl、hsv或hsb颜色规范。可以基于细分颜色通道和/或生成每个块的亮度图或灰度图来定义块集。例如,对于图像的每个部分,块生成模块311可以提供红色图像片、蓝色图像片、绿色图像片和/或亮度图像片,或者针对所使用的颜色规范的等同物。如本文所说明,基于图像的部分和/或部分的颜色值来细分数字病理学图像可以提高用于生成针对块和图像的标签并产生图像分类的网络的准确度和识别率。除此之外,数字病理学图像处理系统310(例如,使用块生成模块311)可以在颜色规范之间转换和/或使用多个颜色规范来制备块的副本。可以基于期望类型的图像增强(例如,加强或提升特定颜色通道、饱和程度、亮度级别等)来选择颜色规范转换。还可以选择颜色规范转换以提高数字病理学图像生成系统320与数字病理学图像处理系统310之间的兼容性。例如,特定图像扫描部件可以提供hsl颜色规范中的输出,并且在如本文所述的数字病理学图像处理系统310中使用的模型可以使用rgb图像来训练。将块转换至兼容的颜色规范可以确保仍然可以分析块。除此之外,数字病理学图像处理系统可以对以特定颜色深度(例如,8位、16位等)提供的图像进行升采样或降采样,以可供数字病理学图像处理系统310使用。此外,数字病理学图像处理系统310可以根据已捕获的图像的类型使块被转换(例如,荧光图像可以包括关于颜色强度的更多细节或更广泛的颜色)。
60.如本文所述,块分类模块312可以对数字病理学图像的块中的图像特征进行识别或分类并生成针对这些特征的标签。在一些实施例中,对图像特征(例如,数字病理学图像中的特征)进行分类可以包括:对组织样品内的底层组织结构进行分类或识别。块分类模块312可以从块生成模块311接收块集,识别块中的每一个中的一个或多个特征,并使用机器学习模型来生成针对这些特征的一个或多个标签。每个标签可以指示组织样品中示出的特定病症类型(例如,组织学结构亚型、突变类型)。作为示例,数字病理学图像可以为来自被诊断患有非小肺癌类型的患者的样品的图像,并且由块分类模块312识别的特征可以包括不同的组织学结构,诸如腺癌(adc)、鳞状细胞癌(scc)等,如例如在图1a中所示。作为另一示例,由块分类模块312识别的特征可以包括不同的突变或基因变体,诸如kras突变、表皮生长因子受体(egfr)突变、间变性淋巴瘤激酶(alk)突变或肿瘤蛋白53(tp53)突变等,如图
2a中所示。在特定实施例中,块分类模块312可以使用经训练的机器学习模型(诸如本文讨论的深度学习神经网络125或225)来识别图像特征并生成要施加于块的对应标签。该模型可以由训练控制器317基于下文参考图5a至图5b或通过图8中讨论的方法来训练。
61.如本文所述,图像可视化模块313可以生成用于分析数字病理学图像的可视化。在特定实施例中,图像可视化模块313可以基于在图像中识别的特征、与组织结构特征相对应并针对数字病理学图像的块生成的标签以及其他相关信息来生成针对给定数字病理学图像的可视化。例如,图像可视化模块313可以接收来自块分类模块312的标签或加标签的块,并基于加标签的块生成可视化,如例如在图1b和图2b中所讨论。在特定实施例中,一个或多个可视化(诸如图4a至图4b中所示的可视化)可以由病理医师使用来评估本文讨论的机器学习模型。例如,病理医师可以审查描绘各种识别的特征和对应标签的可视化(例如,热图),以评定模型是否正确识别这些特征和标签。除此之外或替代地,一个或多个可视化可以帮助病理医师诊断或评定患者或审查初始评定。
62.在特定实施例中,由图像可视化模块313生成的可视化为基于块的标记(诸如热图),其表征识别的特征的细节以供审查和/或分析。应当注意,热图仅为一种类型的基于块的标记,并且也可以生成其他类型的基于块的标记并将其用于本文讨论的可视化。在一些实施例中,数字病理学图像处理系统310可以学习基于块的标记并且可以将其知识使用在其他预测中。这可以包括例如原始计数的可视化、加标签的块的百分比、加标签的块相对于载玻片/肿瘤区其余部分的百分比、加标签的块的统计分布、块的空间分布等。
63.基于块的标记可以描绘组织样品中的识别的特征的可视化。例如,可视化可以包括:以差异化颜色编码显示特征(例如,组织学结构、突变),如本文别处所述。在特定实施例中,图像可视化模块313可以使用不同的可视化技术来生成其可视化(例如,基于块的标记)。例如,图像可视化模块313可以使用以下中的一者或多者来生成可视化:梯度加权类激活映射(grad-cam)技术、评分加权类激活映射(score-cam)技术、遮挡映射技术和显著性映射技术,如例如在图4c中所示和所讨论。在一个实施例中,图像可视化模块313可以选择显著性映射技术作为其用于使图像中的各种特征可视化的优选和期望的技术。图4d示出了利用选择的显著性映射技术使图像可视化的示例。
64.如本文所述,异质性度量计算模块314可以基于在数字病理学图像中识别的特征和/或标签来计算异质性度量。异质性度量可以包括基于与特征相对应的标签(例如,组织学结构亚型、突变类型)的特征的异质性级别或程度的可量化测度,这些特征包括组织学结构、突变等。在特定实施例中,异质性度量可以使用标签来指示组织结构中的每个特征相对于组织结构中的其他特征的相对比例。例如,异质性度量可以包括标签的原始计数、加标签的块的百分比、加标签的块相对于载玻片和/或肿瘤区的其余部分的百分比、加标签的块的统计分布、加标签的块的空间分布以及其他相关度量及其衍生物。
65.举例来说但不进行限制,异质性度量可以针对在图1a中识别的各种组织学结构指示组织样品(例如,患者的非小细胞肺癌的图像)中的adc和scc亚型肺癌中的每一者的百分比。换句话说,异质性度量可以指示相对于组织样品中的总scc癌症区域存在多少总adc癌症区域,如图1b所示。作为另一示例,异质性度量可以针对在图2a中识别的各自突变或基因变体指示受试者或患者的给定组织样品中kras和egfr突变中的每一者的百分比。异质性度量可用于诊断患者的特定病症。例如,异质性度量可用于基于患者的组织样品中存在的adc
和scc癌症区域的量来诊断患者的异质性。
66.数字病理学图像处理系统310的输出生成模块316可以使用数字病理学图像、图像分类(例如,加标签的块)、图像可视化(例如,基于块的标记)和异质性度量来生成与作为输入接收的数字病理学图像相对应的输出。如本文所述,除了数字病理学图像的标签和注释之外,输出还可以包括各种可视化和与这些可视化相对应的诊断。输出可以进一步包括基于组织样品的受试者评定。作为示例,针对给定数字病理学图像的输出可以包括所谓的热图,该热图识别并突出显示数字病理学图像内的目标区,如在例如图4a至图4b中所示。热图可以指示图像的描述特定病症或诊断或与其相关的部分,并且可以指示此类指示的准确度或统计置信度。在许多实施例中,输出将被提供给使用者装置330以供显示,但在某些实施例中,可以直接从数字病理学图像处理系统310访问该输出。
67.数字病理学图像处理系统310的训练控制器317可以控制本文讨论的一个或多个机器学习模型(例如,深度学习神经网络)的训练和/或由数字病理学图像处理系统310使用的功能。在一些情况下,由数字病理学图像处理系统310使用的用于识别或检测组织样品内的特征(例如,组织学结构、突变等)的一个或多个神经网络由训练控制器317一起训练。在一些情况下,训练控制器317可以选择性地训练模型以供数字病理学图像处理系统310使用。例如,数字病理学图像处理系统210可以使用第一训练技术来训练用于数字病理学图像中的特征分类的第一模型,使用第二训练技术来训练用于计算异质性度量的第二模型,并使用第三训练技术来训练用于识别数字病理学图像中的肿瘤区或区域第三模型。下文至少参考图5a至图5b的过程500和550以及图8的方法800详细描述机器学习模型(例如,深度学习神经网络)的训练。
68.图4a示出了可以基于使用本文讨论的机器学习模型识别的图像特征和对应标签来生成的示例性可视化。特别地,图4a示出了示例热图400和同一热图400的详细视图410。热图可以由多个单元构成。在特定实施例中,热图可以为基于块的标记的一个示例。热图的单元可以直接对应于从数字病理学图像生成的块,如上文至少参考图1a至图1b和图2a至图2b所讨论。可以为每个单元分配强度值,可以跨所有单元使该强度值归一化(例如,使得单元的强度值的范围从0到1、从0到100等)。在显示热图400时,可以将单元的强度值转换为不同的颜色、模式、强度等。在图4a中示出的示例中,402表示肿瘤区域或区并且在肿瘤区域402内,深灰色区域404a、404b、404c、404d和404e(本文也单独地和统一地称为404)表示adc癌症区域,而浅灰色单元406a、406b、406c和406d(本文也单独地和统一地称为406)表示scc癌症区域。虽然未被示出,但可以使用本文讨论的热图类似地使不同的突变(例如,kras突变、egfr突变等)可视化。颜色梯度可用于示出不同的组织学结构或突变,如使用在图1a至图1b和图2a至图2b中讨论的过程所识别。在特定实施例中,可以从由本文讨论的深度学习神经网络针对对应块确定的标签导出每个单元的强度值。因此,热图可以用于快速识别数字病理学图像的块,数字病理学图像处理系统310(特别是块分类模块312)已将该等块识别为可能包括特定病症(诸如特定组织学结构、特定基因突变、特定基因变体等)的指标。在特定实施例中,使用以下中的一者或多者来生成图4a中描绘的可视化400和410:可视化工具160、可视化工具260、图像可视化模块313或输出生成模块316。
69.图4b示出了可以基于使用本文讨论的机器学习模型识别的图像特征和对应标签来生成的其他示例性可视化。特别地,图4b示出了可以针对单个数字病理学图像产生两个
热图420和430的示例。每个热图420或430描绘了与指示特定特征的单个标签相关的可视化。例如,可以生成与每个特征相对应的单独的热图,而非描绘两个或更多个特征的可视化的单个热图,诸如热图400,其中针对特定特征的每个热图示出该特征在该图内的区域。如图所示,热图420示出了scc的区域422a、422b、422c和422d,而热图430示出了adc的区域432a、432b和432c。以类似的方式,可以生成单独的热图,用于使突变或基因变体中的每一者可视化。
70.图4c示出了使用各种可视化技术来使示例性数字病理学图像可视化。这些可视化技术包括梯度加权类激活映射(grad-cam)技术、评分加权类激活映射(score-cam)技术、遮挡映射技术和显著性映射技术。在特定实施例中,数字病理学图像处理系统310的图像可视化模块313能够使用这些不同的可视化技术中的每一种来生成各种基于块的标记。
71.如图所示,图像450示出了应用可视化技术之前的原始块。图像452示出了应用grad-cam技术之后的块。grad-cam技术使用流入卷积神经网络(cnn)的最终卷积层的任何目标概念的梯度,以生成粗略定位图,突出显示图像中的重要区域以用于预测该概念。接下来,图像454示出了应用score-cam技术之后的块。score-cam技术为无梯度可视化方法,从grad-cam和grad-cam++扩展而来。该技术对解释决策过程实现了更好的视觉性能和公平性。接下来,图像456示出了应用遮挡映射技术之后的块。遮挡映射技术为阴影技术,其用于通过模拟在间接或环境照明投射到图像上时应自然地出现的柔和的外观,使3d对象看起来更逼真。在一些实施例中,遮挡图为灰度图像,其中白色指示应接收完全间接照明的区,并且黑色指示没有间接照明。接下来,图像458示出了应用显著性映射技术之后的块。显著性映射技术为利用显著性来识别图像中的独特特征(像素、分辨率等)的技术。独特特征描绘了图像中的重要或相关位置。在特定实施例中,显著性映射技术识别图像中机器学习模型(例如,深度学习神经网络)将其用来进行其标签预测的区域。在特定实施例中,显著性图也是热图,其中热度是指图像中对预测对象所属的类别有很大影响的那些区域。显著性图的目的是找到在视野中的每个位置处突出或引人注目的区域,并基于显著性的空间分布来指导对关注位置的选择。
72.基于比较不同的可视化技术和基于这些技术获得的结果,如上文参考图4c所讨论,图像可视化模块313可以选择用于使图像中的各种特征(例如,突变)可视化的优选技术。除此之外,图像可视化模块313的使用者操作者可以指定期望的技术。作为示例,基于分析或检查在应用图4c中的不同可视化技术之后获得的块450、452、454、456和458,图像可视化模块313可以将显著性图的结果确定为在描绘图像中的特征(例如,adc、scc)方面最准确和清晰。图4d示出了利用选择的显著性映射技术使示例性数字病理图像可视化的示例。类似于图4c,460示出了在应用任何可视化技术之前的原始scc块,并且462示出了在应用本文讨论的显著性映射技术之后所得的scc块。应用显著性映射技术有助于示出对由深度学习神经网络作出的对标签进行预测的决策影响最大的组织区。如附图标记470所指示,显著性图已经在没用分割算法的情况下挑选出scc块中的细胞核。
73.图5a至图5b分别示出了用于训练机器学习模型以根据对在块中描述的图像特征的检测来对数字病理学图像进行分类以及测试和更新机器学习模型的示例性过程500和550。图5a示出了用于训练数字病理学图像处理系统310并且特别用于训练用于识别组织样品内的特征(例如,组织学结构、突变等)的深度学习神经网络的示例性过程500。一般来说,
训练过程涉及向数字病理学图像处理系统310提供具有真实值特征和对应标签的训练数据(例如,各种受试者的数字病理学图像或全切片图像),使深度学习神经网络学习识别各种特征(例如,组织学结构、突变等)并在给定的数字病理学或全切片图像中生成对应标签。用于训练的真实值标签可以由临床医师/病理医师提供,并且可以包括肿瘤类型(诸如组织学结构亚型,包括例如腺癌和鳞状细胞癌)的诊断以及针对突变的dna测序。培训特别有利,因为其减轻了使用者(例如,病理医师、医生、临床专家等)人工评估数千张全切片图像和识别这些图像中的每一个中的特征的负担。使用经训练的机器学习模型来识别组织样品中的组织学结构或突变,可加快整体图像分类和评估过程。一旦模型经充分训练,模型就可以减少在人类进行的人工分类和评估中可能引入的错误的数量或错误机会。作为示例,经训练的模型可以能够自动地识别不同的突变或基因变体,这些突变或基因变体很难或不可由人类仅从h&e图像人工预测。此外,经训练的机器学习模型有时有助于识别以前未知的新生物标志物或特征。
74.在一些实施例中,针对这种类型的学习结构的模型可以称为多实例学习。在多实例学习中,一批实例被一起提供,作为带有标签的集。需注意,各个实例通常没有标签,而只有集带有标签。标签通常基于存在病症。由所描述的系统采用的多实例学习技术中的基本假设为,当块集被加标签为存在病症时(例如,当块集被加标签为与特定突变类型相关联时),则该集中的至少一个实例属于特定突变类型。类似地,当块集被加标签为与特定组织学结构相关联时,则该集中的至少一个实例属于特定组织学结构。在其他实施例中,块可以被单独地加标签,并且块集可以包含单独加标签的块,其中与该集中的一个块相关联的标签不同于与该集中的另一个块相关联的标签。
75.如本文所述,数字病理学图像处理系统310的训练控制器317可以控制本文讨论的一个或多个机器学习模型(例如,深度学习神经网络)的训练和/或由数字病理学图像处理系统310使用以识别组织样品内的特征(例如,组织学结构、突变等)的功能。如图5a所示,在510处,训练控制器317可以选择、检索和/或访问包括数字病理学图像(例如,全切片图像505a、505b、...、505n)集的训练数据。尽管在图5a中描绘了三个图像作为训练数据的一部分,但是应当注意,这绝不是限制性的并且可以在训练中使用任何数量的图像。例如,包括来自nsclc患者的组织样品的1000个数字病理学图像可用于训练本文讨论的机器学习模型(例如,深度学习神经网络)。
76.在520处,训练控制器317可以进行肿瘤病灶分割,例如,识别数字病理学图像中的每一个中的肿瘤区域(例如,疾病区域)。例如,如图5a所示,肿瘤区域515a在图像505a中被识别,肿瘤区域515b在图像505b中被识别,并且肿瘤区域515n在图像505n中被识别。在一个实施例中,训练控制器317使用一种或多种机器学习技术来自动地识别肿瘤区域。例如,可以由人类专家基于数字病理学图像集中的预先加标签或预先注释的肿瘤区域来训练机器学习模型。在一些实施例中,训练控制器317可以在使用者的帮助下识别肿瘤区域。例如,肿瘤区域可以由病理医师、医生、临床专家、诊断肺癌方面的专家等手动选择。
77.在530处,训练控制器317使数字病理学图像处理系统310(例如使用块生成模块311)将具有识别的肿瘤区域的每个数字病理学图像细分为块或图像片集。例如,如图5a所示,图像525a被细分为块535a、535b、...、535n(本文中也单独地和统一地称为535)集,图像525b被细分为块536a、536b、...、536n(本文中也单独地和统一地称为536)集,并且图像
525n被细分为块537a、537b、...、537n(本文中也单独地和统一地称为537)集。集535、536和537中的每个块可以利用一个或多个图像特征进行分类,并利用针对这些特征的对应标签进行注释。例如,一个或多个人类专家或病理医师可以利用识别或指示组织样品内的特定特征的标签来注释每个块。举例来说但不进行限制,病理医师可以对每个块中的一个或多个特征进行分类或识别,并针对识别的特征中的每一个提供标签,其中标签指示组织样品内的特定组织学结构,诸如adc或scc。举另一例来说但不进行限制,可以由病理医师针对块中的每一个提供指示组织样品内的特定突变或基因变体(诸如kras alk、tp53)的标签。可以重复这个过程,直到所有提取的块都被分类、注释或加标签。在某些实施例中,可以使用针对患者的单个真实值标签来对来自患者的样品的图像的每个块(属于肿瘤病灶)加标签。实际上,针对块的标签可以不同且不为同一标签,并且因此训练为弱监督学习。
78.应当理解,图5a中所示的训练过程500不限于如在图5a中所示的步骤510、520、530和540的次序或布置,并且训练过程500的一个或多个步骤的重新布置是可能的并且在本公开的范围内。例如,在一个实施例中,细分或瓦片式划分步骤530可以出现在肿瘤病灶分割步骤520之前。在该实施例中,首先将受试者的数字病理学图像505a、505b、...、505n细分为多个块,并且随后使用人工注释或单独肿瘤分割算法中的任一者对这些块中的每一个进行肿瘤病灶分割(例如,在块中的每一个中识别肿瘤区域)。在另一个实施例中,训练过程500按如在图5a中所示的次序进行。训练过程500中的其他变型和一个或多个附加步骤也是可能的并且是可设想的。
79.在步骤540处,训练控制器317可以基于加标签的块535、536和537的集来训练机器学习模型(例如,深度学习神经网络)。例如,训练控制器317可以将每个加标签的块(例如,具有识别的特征和对应标签的块)馈送到机器学习模型中,以使用本领域技术人员将理解的cnn训练方法进行训练。一旦经过训练,机器学习模型就可以能够使用全切片级标签对组织块进行分类,如本文别处所讨论。
80.图5b示出了用于测试和更新机器学习模型的过程550,该机器学习模型被训练成使用图5a的过程500来对数字病理学图像和/或从数字病理学图像分割的块中的特征进行识别和分类。例如,一旦机器学习模型基于如上文参考图5a所讨论的多个数字病理学图像505a、505b、...、505n和对应块标签535a、535b、...、535n、536a、536b、...、536n和537a、537b、...、537n进行训练,就可以在一个或多个未见过的测试载玻片或数字病理学图像上测试经训练的机器学习模型,以验证经训练的机器学习模型在其分类方面的准确度。作为示例,可以使经训练的机器学习模型在20个未见过的测试载玻片上进行其测试以进行验证。用于测试机器学习模型的测试载玻片或图像可以为任意数量并且可以由使用者预设。基于验证,可以确定模型的置信度。
81.在560处,训练控制器317可以访问特定受试者的特定数字病理学图像565以测试经训练的机器学习模型。在步骤570处,数字图像处理系统310可以将特定数字病理学图像565细分为多个块575a、575b、...、575n(本文中也单独地和统一地称为575)。在580处,训练控制器317使用通过图5a的过程500获得的经训练的机器学习模型来识别图像特征并生成针对在多个块575中识别的图像特征的标签。例如,训练控制器317生成针对块575a中描绘的特征的预测标签585a、针对块575b中描绘的特征的预测标签585b以及针对块575n中描绘的特征的预测标签585n。
82.在590处,训练控制器317可以访问针对块575a、575b、...、575n中的每一个的真实值标签或分类。如图所示,真实值标签587a对应于在块575a中描绘的特征,真实值标签587b对应于在块575b中描绘的特征,并且真实值标签587n对应于在块575n中描绘的特征。在特定实施例中,真实值标签为已知是准确或理想分类的标签或分类。例如,真实值标签可以作为训练图像数据集的一部分提供,并且可以由病理医师或其他人类操作者生成。在访问真实值标签时,在步骤590处,训练控制器317可以将预测标签585a、585b、...、585n与对应的真实值标签或真标签587a、587b、...、587n进行比较。例如,训练控制器317将预测标签585a与真实值标签587a进行比较,将预测标签585b与真实值标签587b进行比较,并将预测标签585n与真实值标签587n进行比较。在一些实施例中,基于比较,训练控制器317可以计算针对训练过程的评分函数,诸如损失函数。评分函数(例如,损失函数)可以量化由深度学习神经网络预测的标签与真实值标签之间的分类差异。例如,损失函数可以指示偏移值,该偏移值描述由机器学习模型预测的标签与真实值标签或真标签的偏离程度或差距。预测标签与真标签的比较在例如图6中示出。
83.基于比较590,训练控制器317可以确定是否停止训练或更新机器学习模型(例如,深度学习神经网络)。例如,训练控制器317可以确定训练深度学习神经网络,直到损失函数指示深度学习神经网络已经超过预测标签585a、585b、...、585n与真实值标签587a、587b、...、587n之间的一致性阈值。在一些实施例中,训练控制器317可以确定训练深度学习神经网络达设定数量的迭代或时期。例如,深度学习神经网络可以使用同一加标签的块535、536和537的集来反复训练和更新,直到达到指定数量的迭代或直到满足一些阈值标准。训练控制器317还可以使用各种训练图像进行多次迭代以训练深度学习神经网络。还可以使用预留的图像测试集来验证深度学习神经网络。在一些实施例中,训练控制器317可以周期性地暂停训练并提供块测试集,其中适当标签是已知的。训练控制器317可以针对测试集上的已知标签来评估深度学习神经网络的输出以确定深度学习神经网络的准确度。一旦准确度达到设定阈值,训练控制器317就可以停止深度学习神经网络的训练。
84.在一些实施例中,一旦训练控制器317确定训练完成,训练控制器317就可以输出指示经训练的机器学习模型(例如,深度学习神经网络)的分类的置信度或准确度的置信度值。例如,训练控制器317可以输出置信度值0.95,其指示深度学习神经网络在对受试者的测试图像中的特征进行分类方面的准确度为95%。指示模型的准确度的示例性置信度值在例如图6中示出。
85.如本文所述,用于识别图像特征以及生成针对数字病理学图像(例如,全切片图像)的对应标签的传统过程是费力且耗时的。数字病理学图像处理系统310和本文描述的使用和训练所述系统的方法可用于增加可用于训练数字病理学图像处理系统的各种网络的图像集。例如,在使用具有已知标签(可能包括注释)的数据进行初始训练轮次之后,数字病理学图像处理系统310可用于对没有现有标签的块进行分类。生成的分类可以由人类代理验证,如果需要校正,则可以使用新数据来重新训练数字病理学图像处理系统310(例如,深度学习神经网络)。可以重复这个循环,并期望提高以前未见过的示例的准确率将需要查看者的干预。除此之外,一旦已经达到指定的准确度级别,由数字病理学图像处理系统310生成的标签就可以用作针对训练的真实值。
86.图6示出了基于两个不同采样数据的预测标签与真标签之间的示例性实验比较数
据。特别地,图6示出了机器学习模型(例如,深度学习神经网络)在针对两种不同数量的测试样品预测或识别组织学结构(例如adc和scc)方面的准确度。左侧的图表600示出了置信度值610a、610b、610c和610d,其指示模型在基于10个测试样品预测或识别adc和scc区域方面的准确度。如所描绘,训练控制器317输出置信度值0.9(如附图标记610a和610d所指示),其指示在真标签与预测标签之间存在90%的一致性。换句话说,训练控制器317可以发现经训练的模型(例如,深度学习神经网络)在正确识别10个测试样品内的adc和scc区域方面具有90%的准确度。
87.右侧的图表620示出了置信度值630a、630b、630c和630d,其指示模型在基于280个测试样品预测或识别adc和scc区域方面的准确度。如所描绘,训练控制器317在识别这些样品内的adc的模型中输出置信度值0.76(由附图标记630a指示)并且在识别这些样品内的scc的模型中输出置信度值0.92(由附图标记630d指示)。具体地,置信度值630a和630d分别指示在识别这些样品内的adc时真标签与预测标签之间存在76%的一致性,并且在识别这些280个测试样品内的scc时,真标签与预测标签之间存在92%的一致性。
88.图7示出了用于使用机器学习模型来识别数字病理学图像中的特征以及基于数字病理学图像中的识别的特征的异质性来生成受试者评定的示例性方法700。方法700可以开始于步骤710,其中数字病理学图像处理系统310接收或另外地访问组织样品的数字病理学图像。在特定实施例中,组织样品的数字病理学图像为来自被诊断患有非小细胞肺癌的受试者或患者的样品的全切片图像。在一个实施例中,本文讨论的数字病理学图像或全切片图像为h&e染色的图像或可以从来自被诊断患有非小细胞肺癌的患者的肿瘤样品的h&e制备物获得。如本文所述,数字病理学图像处理系统310可以直接从数字病理学图像生成系统接收图像或者可以从使用者装置330接收图像。在其他实施例中,数字病理学图像处理系统310可以与用于存储数字病理学图像的数据库或其他系统通信地耦合,这有助于数字病理学图像处理系统310接收图像以供分析。
89.在步骤715处,数字病理学图像处理系统310将图像细分为块。例如,数字病理学图像处理系统310可以将图像细分为如图1a和2a所示块。如本文所述,预期数字病理学图像比标准图像显著更大,并且比原本对于标准图像识别和分析通常可行的要大得多(例如,大约100,000像素乘100,000像素)。为了便于分析,数字病理学图像处理系统310将图像细分为块。为了分析的目的,块的大小和形状是统一的,但大小和形状可以是可变的。在一些实施例中,块可以重叠以增加图像背景被数字病理学图像处理系统310正确分析的机会。为了平衡准确进行的工作,可优选使用非重叠块。除此之外,将图像细分为块可以涉及基于与图像相关联的颜色通道或主色来细分该图像。
90.在步骤720处,数字病理学图像处理系统310对块中的每一个中的一个或多个图像特征(例如,组织学结构、突变等)进行识别和分类,并且在步骤825处,使用机器学习模型针对在数字病理学图像的每个块中识别的一个或多个图像特征生成一个或多个标签,其中每个标签可以指示组织样品中的特定病症类型(例如,癌症类型、肿瘤细胞类型、突变类型等)。在一个实施例中,数字病理学图像为来自患有非小细胞肺癌类型的患者的样品的图像,并且由机器学习模型在步骤825处生成的标签可以指示组织学结构亚型,诸如腺癌(adc)、鳞癌细胞癌(scc)等,如在例如图1a中所示。在另一个实施例中,由机器学习模型在步骤825处生成的标签可以指示不同的突变或基因变体,诸如kras突变、表皮生长因子受体
(egfr)突变、间变性淋巴瘤激酶(alk)突变或肿瘤蛋白53(tp53)突变等,如在例如图2a中所示。应当理解,本文讨论的机器学习模型不限于生成与组织样品中的不同组织学结构和突变相对应的标签,并且可以由机器学习模型生成与组织样品中的其他各种特征相对应的标签。在特定实施例中,本文讨论的机器学习模型为深度学习神经网络。
91.在步骤730处,数字病理学图像处理系统310可以任选地基于使用上文的机器学习模型生成的标签来生成基于块的标记。例如,数字病理学图像处理系统310可以生成如图4a和4b中所示的基于块的标记。在特定实施例中,基于块的标记为热图,该热图包括分别与多个强度值相关联的多个区域。热图的多个区域中的一个或多个区域可以与对患者样品中的病症的指示相关联,并且与一个或多个区域相关联的相应强度值与该指示的统计置信度相关。基于块的标记可以描绘组织样品中的识别的特征的可视化。可视化可以包括:以差异化颜色编码显示特征(例如,组织学结构、突变)。举例来说但不进行限制,通过基于块的标记使组织样品中的不同组织学结构可视化可以包括:以蓝色显示adc、以绿色显示scc等。在特定实施例中,数字病理学图像处理系统310可以使用不同的可视化技术来生成本文讨论的基于块的标记(例如,热图)。例如,图像可视化模块313可以使用以下中的一者或多者来生成可视化:grad-cam技术、score-cam技术、遮挡映射技术或显著性映射技术,如在例如图4c中所示和所讨论。在一个实施例中,这里使用的可视化技术是显著性映射技术,如在例如图4d中所示和所讨论。
92.在步骤735处,数字病理学图像处理系统310使用在步骤725中生成的标签来计算异质性度量。在替代实施例中,数字病理学图像处理系统310可以使用在步骤730中生成的基于块的标记来计算异质性度量。在特定实施例中,异质性度量可以指示组织样品中的每个标签相对于组织样品内的其他标签的相对比例。举例来说但不进行限制,异质性度量可以针对在图1a中识别的各种组织学结构指示组织样品(例如,患者的非小细胞肺癌图像)中的adc和scc癌症区域中的每一个的百分比。换句话说,异质性度量可以指示相对于组织样品中的总scc癌症区域存在多少总adc癌症区域,如图1b所示。作为另一示例,异质性度量可以针对在图2a中识别的各自突变或基因变体指示受试者或患者的给定组织样品中kras和egfr突变中的每一者的百分比。作为另一示例,异质性度量可以提供量化异质性的程度或大小的度量或者以其他方式对此类度量作出贡献。
93.在步骤740处,数字病理学图像处理系统310基于计算的异质性或异质性度量来生成受试者评定。受试者评定可以包括(作为示例而非限制)受试者诊断、预后、治疗建议或基于数字病理学图像中的特征的异质性的其他类似评定。例如,基于指示各种特征(例如,组织学结构或突变)及其对应标签在给定组织样品中的异质性程度的异质性度量,输出生成模块316可以生成给定组织样品的适当评定。作为示例,该评定可以包括基于adc和scc癌症区域存在于患者的组织样品中的量的患者肺癌的严重性。
94.在步骤745处,数字病理学图像处理系统310将生成的受试者评定提供给使用者,诸如病理医师、医生、临床专家、诊断肺癌方面的专家、成像装置的操作者等。在特定实施例中,使用者可以使用在步骤740中生成的评定来评定患者的治疗选项。在一些实施例中,输出生成模块316可以基于评定来输出关于受试者是否符合条件参加临床试验的指示。输出(例如,评定)可以进一步包括例如各种图像特征(例如,组织学结构、突变等)的数字病理学图像分类、交互界面或衍生特征及其统计量。可以经由例如适当配置的使用者装置330将这
些输出以及更多提供给使用者。可以在交互界面中提供输出,这有助于使用者审查数字病理学图像处理系统310进行的分析,同时还支持使用者的独立分析。例如,使用者可以打开或关闭输出的各种特征,缩放、平移和以其他方式操纵数字病理学图像,并提供关于分类、注释和衍生特性的反馈或笔记。
95.在步骤750处,数字病理学图像处理系统310可以任选地接收关于所提供的受试者评定的反馈。使用者可以提供关于标签的分类或注释的准确度的反馈。例如,使用者可以向使用者指示先前未由数字病理学图像处理系统310识别的目标区(以及其成为目标的原因)。除此之外,使用者可以指示尚未由数字病理学图像处理系统310提议或捕获的针对图像的附加分类。还可以存储该反馈以供使用者以后访问,例如作为临床笔记。
96.在步骤755处,数字病理学图像处理系统310可以任选地使用反馈来重新训练或更新用于数字病理学图像的分类的一个或多个机器学习模型,例如深度学习神经网络或分类网络。数字病理学图像处理系统310可以使用反馈来补充对数字病理学图像处理系统310可用的训练数据集,其中额外的益处在于反馈已由人类专家提供,这增加了该训练数据集的可靠性。数字病理学图像处理系统310可以基于由系统提供的分析不断地修改深度学习神经网络,以便提高其分类的准确度并提高数字病理学图像处理系统310识别主要目标区的速度。因此,数字病理学图像处理系统310不是静态系统,但是可以提供持续改进并从其受益。
97.特定实施例可以在适当的情况下重复图7的方法的一个或多个步骤。尽管本公开将图7的方法的特定步骤描述并示出为以特定次序出现,但本公开设想图7的方法的任何合适的步骤以任何合适的次序出现。此外,尽管本公开描述并示出了包括图7的方法的特定步骤的示例性方法(用于使用机器学习模型来识别数字病理学图像中的特征以及基于数字病理学图像中的识别的特征的异质性来生成受试者评定),但是本公开设想了包括任何合适的步骤的任何合适的方法(用于使用机器学习模型来识别数字病理学图像中的特征以及基于数字病理学图像中的识别的特征的异质性来生成受试者评定),其在适当的情况下可以包括图7的方法的所有、一些步骤,或者不包括这些步骤。此外,尽管本公开描述并示出了执行图7的方法的特定步骤的特定部件、装置或系统,但本公开设想了执行图7的方法的任何合适的步骤的任何合适的部件、装置或系统的任何合适的组合。
98.图8示出了用于训练和更新机器学习模型以根据对块中描绘的图像特征的检测来对数字病理学图像的块加标签或进行分类的示例性方法800。在特定实施例中,方法800的步骤810至830与训练机器学习模型相关联,并且方法800的步骤835至865与测试和更新经训练的机器学习模型相关联。方法800可以开始于步骤910,其中数字病理学图像处理系统310访问分别与多个受试者或患者相关联的多个数字病理学图像。在特定实施例中,这包括接收来自非小细胞肺癌(nsclc)患者的组织样品的图像数据。举例来说,以0.5像素/um分辨率扫描的来自nsclc患者的476个组织样品可以用作训练数据集,用于训练本文讨论的机器学习模型。
99.在步骤815处,数字病理学图像处理系统310进行肿瘤病灶分割,例如,识别在步骤810中访问的多个数字病理学图像中的每一个中的肿瘤区域。作为示例,可以在图像中的每一个中识别肿瘤区域515,如在图5a中所示。在一个实施例中,可以使用单独的肿瘤病灶分割算法或一种或多种机器学习技术来自动地识别肿瘤区域。例如,可以由人类专家基于数
字病理学图像集中的预先加标签或预先注释的肿瘤区域来训练机器学习模型。在一个实施例中,肿瘤区域可以由使用者(诸如病理医师、医生、临床专家、诊断肺癌方面的专家等)手动选择。
100.在步骤820处,数字病理学图像处理系统310可以将具有识别的肿瘤区域的每个数字病理学图像细分为块集。例如,如在图5a中所示,数字病理学图像处理系统310可以将每个图像细分为块集,诸如集535、集536、集537等。在一些实施例中,为了分析的目的,每个块的大小和形状是统一的,但大小和形状可以是可变的。作为示例,具有识别的肿瘤区域或区的每个数字病理学图像被细分为512
×
512个像素的较小块。如前所述,本公开设想图5a的训练过程500或图8的方法800的任何合适的步骤以任何合适的次序出现。例如,在一个实施例中,步骤820可以出现在步骤815之前。在另一个实施例中,方法800的步骤以如在图8中所示的次序进行。
101.在步骤825处,可以利用图像特征连同对应标签对在步骤820中提取的块集进行分类或注释。例如,一个或多个人类专家或病理医师可以对每个块中的一个或多个特征进行分类,并利用指示组织样品内的特定病症的一个或多个真实值标签来对各特征进行注释。举例来说但不进行限制,每个块可以被分类或加标签为包括组织样品内的特定组织学结构,诸如adc或scc。举另一例来说但不进行限制,每个块可以被分类或加标签为包括组织样品内的特定的突变或基因变体,诸如kras、alk、tp53。可以重复这个过程,直到所有提取的块都被注释或加标签。
102.在步骤830处,数字病理学图像处理系统310可以基于加标签的块集来训练机器学习模型(例如,深度学习神经网络)。例如,训练控制器317可以将每个加标签的块(例如,具有对应真实值标签的经分类的组织结构特征)馈送到机器学习模型中用于训练,如在例如图5a中所示。在特定实施例中,机器学习模型为卷积神经网络,其可以使用迁移学习技术和弱监督学习技术基于inception v3和resnet18架构进行训练。应当理解,用于训练机器学习模型的其他学习技术也是可能的并且在本公开的范围内。一旦经过训练,机器学习模型就可以能够使用全切片级标签对组织块进行分类。
103.在步骤835处,数字病理学图像处理系统310可以访问特定受试者的特定数字病理学图像以测试经训练的机器学习模型。例如,一旦机器学习模型基于如上文在步骤810至830中所讨论的多个数字病理学图像和对应块标签进行训练,就可以在一个或多个未见过的测试载玻片或数字病理学图像上测试经训练的机器学习模型,以验证经训练的机器学习模型在其分类和确定模型的置信度方面的准确度。作为示例,可以使经训练的机器学习模型在20个未见过的测试载玻片上进行其测试以进行验证。用于测试机器学习模型的测试载玻片或图像可以为任意数量并且可以由使用者预设。
104.在步骤840处,数字病理学图像处理系统310可以将特定数字病理学图像细分为第二块集,如本文别处所讨论并且在例如图5b中所示。在步骤845处,数字病理学图像处理系统310可以使用经训练的机器学习模型来识别每个块中的一个或多个第二图像特征并生成一个或多个标签(例如,组织学结构亚型、突变类型等)。
105.在步骤850处,数字病理学图像处理系统310可以将由经训练的机器学习模型生成的标签与真实值标签或真标签进行比较。在一些实施例中,数字病理学图像处理系统310可以基于该比较来计算损失函数。例如,训练控制器317可以将由机器学习模型预测的针对第
二块集的标签与由人类专家或病理医师作出的针对这些块的真标签进行比较以确定损失函数。在一些实施例中,损失函数可以为机器学习模型在预测在给定组织样品内描绘的针对特征的标签方面的准确度的指标。在一些实施例中,损失函数可以指示偏移值,该偏移值量化由机器学习模型预测的标签与真实值或真标签的偏离程度。预测标签与真标签的比较在例如图6中示出。
106.在步骤855处,数字病理学图像处理系统310可以任选地作出关于基于步骤850中的比较计算的评分函数(例如,损失函数)是否小于特定阈值的确定。阈值可以为由使用者(例如,病理医师)设定的上限,到达该上限时,针对第二块集的由机器学习模型预测的标签被认为接近或等同于真标签或真实值标签。换句话说,阈值可以为某个限制或值,其中如果指示偏移值的评分函数(例如,量化由机器学习模型预测的标签与真实值标签或真标签的偏离程度)小于阈值或在其内,则机器学习模型可以被确定为在其标签预测或分类方面是准确的。而如果评分函数的偏移值大于阈值,则机器学习模型被确定为不准确并被标记为需要更多训练。举非限制性示例来说,阈值可以为90%,并且如果预测标签与真标签之间的比较表明标签之间的一致性为92%或者92%的预测标签与真标签匹配,则机器学习模型可以被认为是准确的且经过充分训练。继续同一示例,如果预测标签与真标签之间的一致性仅为75%,则机器学习模型被确定为需求或需要更多训练。在一些实施例中,训练控制器317可以使用比较数据(如在例如图6中所示)在步骤855中做出该确定。
107.在步骤860处,数字病理学图像处理系统310可以更新机器学习模型。在某些实施例中,响应于确定评分函数小于阈值,出现更新。在一些实施例中,更新机器学习模型可以包括以下中一者或多者:重复步骤810至830;重新配置或更新机器学习模型的一个或多个参数;以及进行步骤835至855以检查损失函数是否满足阈值标准(例如,损失函数大于阈值、预测标签与真标签之间的一致性大于90%等)。在特定实施例中,进行更新是为了优化损失函数或最小化生成的标签/预测标签与真标签/真实值标签之间的差异。
108.在步骤865处,数字病理学图像处理系统310可以终止训练并将经训练的机器学习模型存储在数据存储区中以供将来在对组织样品中的特征(例如,组织学结构、突变等)进行分类时访问和/或检索。在一些实施例中,训练控制器317确定何时停止训练。该确定可以基于预定的终止规则。在一些实施例中,响应于确定评分函数满足阈值标准或大于阈值,训练可以终止。在特定实施例中,一旦预定数量(例如,1000个、10,000个等)训练样品已被用于训练该模型,训练就可以终止。在具体实施例中,一旦训练数据集中的训练样品已经全部用于训练该模型,训练就可以终止。在特定实施例中,当损失比较(例如,损失函数的偏移值)足够小或低于预定阈值时,训练可以终止。如果训练控制器317确定训练应该继续,则过程可以从步骤810开始重复。相反,如果训练控制器317确定训练应该终止,则训练将终止。
109.特定实施例可以在适当的情况下重复图8的方法的一个或多个步骤。尽管本公开将图8的方法的特定步骤描述并示出为以特定次序出现,但本公开设想图8的方法的任何合适的步骤以任何合适的次序出现。此外,尽管本公开描述和示出了包括图8的方法的特定步骤的示例性方法(用于训练和更新机器学习模型以根据对块中描绘的图像特征的检测来对数字病理学图像的块加标签或进行分类),但是本公开设想了包括任何合适的步骤的任何合适的方法(用于训练和更新机器学习模型以根据对块中描绘的图像特征的检测来对数字病理学图像的块加标签或进行分类),其可以包括图8的方法的全部、一些步骤,或者不包括
这些步骤。此外,尽管本公开描述并示出了执行图8的方法的特定步骤的特定部件、装置或系统,但本公开设想了执行图8的方法的任何合适的步骤的任何合适的部件、装置或系统的任何合适的组合。
110.本文描述的一般技术可以集成到各种工具和用例中。例如,如所描述,使用者(例如,病理医师或临床医师)可以访问与数字病理学图像处理系统310通信的使用者装置330并提供数字病理学图像以供分析。数字病理学图像处理系统310或与数字病理学图像处理系统的连接件可以作为独立软件工具或包来提供,该独立软件工具或包对数字病理学图像进行自动注释和/或生成评估分析中的图像的热图。作为可以在精简基础上购买或受许可的独立工具或插件,该工具可用于增强研究或临床实验室的能力。除此之外,该工具可以集成到被使得可由数字病理学图像生成系统的客户获得的服务中。例如,该工具可以作为统一的工作流程来提供,其中执行或请求创建数字病理学图像的使用者自动接收经注释的图像或等效热图。因此,除了改进数字病理学图像分析之外,这些技术还可以集成到现有系统中,以提供以前未考虑或不可能的附加功能。
111.此外,可以训练和自定义数字病理学图像处理系统310以用于特定环境。例如,数字病理学图像处理系统310可以经专门训练以用于提供与特定类型的组织(例如,肺、心脏、血液、肝脏等)相关的临床诊断。作为另一示例,数字病理学图像处理系统310可以经训练以协助安全评定,例如在确定与药物或其他潜在疗法性治疗相关联的毒性级别或程度方面。一旦被训练用于特定主题或用例,数字病理学图像处理系统310就不必限于该用例。例如,数字病理学图像处理系统可以经训练用于针对肝组织的毒性评定,但所得的模型可以应用于诊断环境。由于至少部分加标签或经注释的数字病理学图像的集相对较大,因此可以在特定环境(例如,毒性评定)中进行训练。
112.图9示出了示例性计算机系统900。在特定实施例中,一个或多个计算机系统900执行本文描述或示出的一种或多种方法的一个或多个步骤。在特定实施例中,一个或多个计算机系统900提供本文描述或示出的功能。在特定实施例中,在一个或多个计算机系统900上运行的软件执行本文描述或示出的一种或多种方法的一个或多个步骤,或者提供本文描述或示出的功能。特定实施例包括一个或多个计算机系统900的一个或多个部分。在本文,在适当的情况下,对计算机系统的引用可包括计算设备,反之亦然。此外,在适当的情况下,对计算机系统的引用可包括一个或多个计算机系统。
113.本公开设想了任何合适数量的计算机系统900。本公开设想了采用任何合适的物理形式的计算机系统900。作为示例而非限制,计算机系统900可以为嵌入式计算机系统、片上系统(soc)、单板计算机系统(sbc)(诸如例如模块上计算机(com)或模块上系统(som))、台式计算机系统、膝上型或笔记本计算机系统、交互式信息亭、大型机、计算机系统网格、移动电话、个人数字助理(pda)、服务器、平板计算机系统、增强/虚拟现实装置或其中两个或更多个的组合。在适当的情况下,计算机系统900可包括一个或多个计算机系统900;可为一体的或分布式的;可跨越多个位置;可跨越多个机器;可跨越多个数据中心;或可驻留在云中,该云可包含一个或多个网络中的一个或多个云部件。在适当的情况下,一个或多个计算机系统900可在无实质性空间或时间限制的情况下执行本文描述或示出的一种或多种方法的一个或多个步骤。作为示例而非限制,一个或多个计算机系统900可实时地或以成批模式执行本文描述或示出的一种或多种方法的一个或多个步骤。在适当的情况下,一个或多个
计算机系统900可在不同的时间或在不同的位置执行本文描述或示出的一种或多种方法的一个或多个步骤。
114.在特定实施例中,计算机系统900包括处理器902、存储器904、存储装置906、输入/输出(i/o)接口908、通信接口910和总线912。尽管本公开描述并示出了在特定布置中具有特定数量的特定部件的特定计算机系统,但本公开设想了在任何合适布置中具有任何合适数量的任何合适部件的任何合适计算机系统。
115.在特定实施例中,处理器902包括用于执行指令的硬件,诸如构成计算机程序的那些硬件。作为示例而非限制,为了执行指令,处理器902可从内部寄存器、内部高速缓存、存储器904或存储装置906检索(或提取)指令;可将这些指令解码并执行;并且然后可将一个或多个结果写入内部寄存器、内部高速缓存、存储器904或存储装置906。在特定实施例中,处理器902可包括用于数据、指令或地址的一个或多个内部高速缓存。在适当的情况下,本公开设想了包括任何合适数量的任何合适内部高速缓存的处理器902。作为示例而非限制,处理器902可包括一个或多个指令高速缓存、一个或多个数据高速缓存以及一个或多个转换后备缓冲器(tlb)。指令高速缓存中的指令可为存储器904或存储装置906中的指令的副本,并且指令高速缓存可加速处理器902对那些指令的检索。数据高速缓存中的数据可为:存储器904或存储装置906中的数据的副本,以供在处理器902处执行的指令进行操作;在处理器902执行的先前指令的结果,以供在处理器902执行的后续指令进行访问或写入存储器904或存储装置906;或其他合适的数据。数据高速缓存可加速处理器902的读取或写入操作。tlb可加速处理器902的虚拟地址转换。在特定实施例中,处理器902可包括用于数据、指令或地址的一个或多个内部寄存器。在适当的情况下,本公开设想了包括任何合适数量的任何合适内部寄存器的处理器902。在适当的情况下,处理器902可包括一个或多个算术逻辑单元(alu);可为多核处理器;或可包括一个或多个处理器902。尽管本公开描述并示出了特定处理器,但本公开设想了任何合适的处理器。
116.在特定实施例中,存储器904包括主存储器,该主存储器用于存储供处理器902执行的指令或供处理器902对其进行操作的数据。作为示例而非限制,计算机系统900可将来自存储装置906或另一来源(诸如例如另一计算机系统900)的指令加载到存储器904。然后,处理器902可将来自存储器904的指令加载到内部寄存器或内部高速缓存。为了执行指令,处理器902可从内部寄存器或内部高速缓存检索指令并将这些指令解码。在指令执行期间或之后,处理器902可将一个或多个结果(其可为中间结果或最终结果)写入内部寄存器或内部高速缓存。然后,处理器902可将那些结果中的一个或多个写入存储器904。在特定实施例中,处理器902仅执行一个或多个内部寄存器或内部高速缓存中或存储器904(而非存储装置906或其他地方)中的指令,并且仅对一个或多个内部寄存器或内部高速缓存中或存储器904(而非存储装置906或其他地方)中的数据进行操作。一个或多个存储器总线(其可各自包括地址总线和数据总线)可将处理器902耦接至存储器904。总线912可包括一个或多个存储器总线,如下所述。在特定实施例中,一个或多个存储器管理单元(mmu)驻留在处理器902和存储器904之间,并且促进处理器902所请求的对存储器904的访问。在特定实施例中,存储器904包括随机存取存储器(ram)。在适当的情况下,该ram可为易失性存储器。在适当的情况下,该ram可为动态ram(dram)或静态ram(sram)。此外,在适当的情况下,该ram可为单端口或多端口ram。本公开设想了任何合适的ram。在适当的情况下,存储器904可包括一
个或多个存储器904。尽管本公开描述并示出了特定存储器,但本公开设想了任何合适的存储器。
117.在特定实施例中,存储装置906包括用于数据或指令的海量存储装置。作为示例而非限制,存储装置906可包括硬盘驱动器(hdd)、软盘驱动器、闪存存储器、光盘、磁光盘、磁带或通用串行总线(usb)驱动器或其中两个或更多个的组合。在适当的情况下,存储装置906可包括可移动或不可移动(或固定)介质。在适当的情况下,存储装置906可在计算机系统900的内部或外部。在特定实施例中,存储装置906为非易失性固态存储器。在特定实施例中,存储装置906包括只读存储器(rom)。在适当的情况下,该rom可为掩模编程rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除(eeprom)、电可改写rom(earom)或闪存存储器或者其中两个或更多个的组合。本公开设想了采用任何合适的物理形式的海量存储装置906。在适当的情况下,存储装置906可包括一个或多个存储器控制单元,其促进处理器902和存储装置906之间的通信。在适当的情况下,存储装置906可包括一个或多个存储装置906。尽管本公开描述并示出了特定存储装置,但本公开设想了任何合适的存储装置。
118.在特定实施例中,i/o接口908包括硬件、软件或两者,其提供用于在计算机系统900与一个或多个i/o设备之间进行通信的一个或多个接口。在适当的情况下,计算机系统900可包括这些i/o设备中的一者或多者。这些i/o设备中的一个或多个可实现人与计算机系统900之间的通信。作为示例而非限制,i/o设备可包括键盘、小键盘、麦克风、监视器、鼠标、打印机、扫描仪、扬声器、静止相机、触控笔、平板计算机、触摸屏、轨迹球、摄像机、另一合适的i/o设备或其中两个或更多个的组合。i/o设备可包括一个或多个传感器。本公开设想了任何合适的i/o设备以及针对它们的任何合适的i/o接口908。在适当的情况下,i/o接口908可包括一个或多个设备或软件驱动器,使得处理器902能够驱动这些i/o设备中的一者或多者。在适当的情况下,i/o接口908可包括一个或多个i/o接口908。尽管本公开描述并示出特定的i/o接口,但本公开涵盖任何合适的i/o接口。
119.在特定实施例中,通信接口910包括硬件、软件或两者,其提供用于在计算机系统900与一个或多个其他计算机系统900或一个或多个网络之间的通信(诸如例如基于分组的通信)的一个或多个接口。作为示例而非限制,通信接口910可包括用于与以太网或其他基于导线的网络进行通信的网络接口控制器(nic)或网络适配器,或者用于与无线网络(诸如wi-fi网络)进行通信的无线nic(wnic)或无线适配器。本公开设想了任何合适的网络和针对它的任何合适的通信接口910。作为示例而非限制,计算机系统900可与自组织网络、个人局域网(pan)、局域网(lan)、广域网(wan)、城域网(man)或者因特网的一个或多个部分或其中两个或更多个的组合进行通信。这些网络中的一个或多个的一个或多个部分可以是有线或无线的。作为示例,计算机系统900可与无线pan(wpan)(诸如例如bluetooth wpan)、wi-fi网络、wi-max网络、蜂窝电话网络(诸如例如全球移动通信系统(gsm)网络)或其他合适的无线网络或其中两个或更多个的组合。在适当的情况下,计算机系统900可包括用于这些网络中的任一个的任何合适的通信接口910。在适当的情况下,通信接口910可包括一个或多个通信接口910。尽管本公开描述并示出特定的通信接口,但本公开涵盖任何合适的通信接口。
120.在特定实施例中,总线912包括硬件、软件或计算机系统900的两个相互耦合的部件。作为示例而非限制,总线912可包括加速图形端口(agp)或其他图形总线、增强型工业标
准结构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、infiniband互连、低引脚数(lpc)总线、存储器总线、微通道架构(mca)总线、外围部件互连(pci)总线、pci-express(pcie)总线,串行高级技术附件(sata)总线、视频电子设备标准协会本地(vlb)总线或另一种合适的总线或其中两个或更多个的组合。在适当的情况下,总线912可包括一个或多个总线912。尽管本公开描述并示出了特定总线,但本公开设想了任何合适的总线。
121.在本文,一种或多种计算机可读的非暂时性存储介质可包括一个或多个基于半导体或其他集成电路(ic)(诸如例如现场可编程门阵列(fpga)或专用ic(asic))、硬盘驱动器(hdd)、混合硬盘驱动器(hhd)、光盘、光盘驱动器(odd)、磁光盘、磁光盘驱动器、软盘、软盘驱动器(fdd)、磁带、固态驱动器(ssd)、ram驱动器、secure digital卡或驱动器、任何其他合适的计算机可读的非暂时性存储介质或其中两个或更多个的任何合适组合。在适当的情况下,计算机可读的非暂时性存储介质可为易失性存储介质、非易失性存储介质或易失性存储介质和非易失性存储介质的组合。
122.在本文,“或”是包含性的而非排他性的,除非另有明确说明或上下文另有说明。因此,在本文,“a或b”指“a、b或两者”,除非另有明确说明或上下文另有说明。此外,在本文,“和”既是共同的又是各自的,除非另有明确说明或上下文另有说明。因此,在本文,“a和b”是指“a和b,共同地或各自地”,除非另有明确说明或上下文另有说明。
123.本公开的范围涵盖本领域普通技术人员将理解的对在本文描述或示出的示例性实施例的所有改变、替换、变化、变更和修改。本公开的范围不限于在本文描述或示出的示例性实施例。此外,尽管本公开将本文中的相应实施例描述和示出为包括特定的部件、元件、特征、功能、操作或步骤,但这些实施例中的任一个可包括本领域普通技术人员将理解的在本文任何地方描述或示出的任何部件、元件、特征、功能、操作或步骤的任何组合或排列。此外,在所附权利要求书中,对装置或系统或装置或系统的部件适配为、布置为、能够、配置为、使能够、可操作为或操作为执行特定功能的引用,涵盖该装置、系统、部件,无论其或该特定功能是否被激活、开启或解锁,只要该装置、系统或部件是如此适应、布置、能够、配置、使能、可操作或操作即可。另外,尽管本公开将特定实施例描述或示出为提供特定优点,但特定实施例可不提供这些优点、某些优点或全部优点。

相关内容

热门资讯

家庭实践心得体会 家庭实践心得体会(通用17篇)  当我们积累了新的体会时,常常可以将它们写成一篇心得体会,它可以帮助...
公司总结大会心得体会 公司总结大会心得体会 昨天全公司上下开展公司总裁讲话精神,以下是对相关内容的看法,也是自己对公司、部...
教师校本培训心得体会 教师校本培训心得体会(精选13篇)  我们得到了一些心得体会以后,就很有必要写一篇心得体会,通过写心...
英语培训心得 英语培训心得汇编15篇  当我们对人生或者事物有了新的思考时,往往会写一篇心得体会,这么做可以让我们...
大学生寒假实践心得 大学生寒假实践心得1500字  1.志愿者:黄主任,目前农业服务中心在基层主要开展的工作有哪些?  ...
最新大学生安全教育交通安全心... 最新大学生安全教育交通安全心得体会(精选27篇)  当我们有一些感想时,通常就可以写一篇心得体会将其...
个人读书心得体会 关于个人读书心得体会(通用20篇)  当阅读完一本名著后,大家心中一定有很多感想,是时候静下心来好好...
少年宫舞蹈心得 少年宫舞蹈心得体会(精选5篇)  我们从一些事情上得到感悟后,往往会写一篇心得体会,这样就可以总结出...
干部作风建设心得体会 2022年干部作风建设心得体会(通用15篇)  心得体会是指一种读书、实践后所写的感受性文字。语言类...
师德师风的优秀学习心得体会 师德师风的优秀学习心得体会  教师是“人类灵魂的工程师”,对学生的成长和成才的作用不言而喻。古人对教...