GZMH：用于有丝分裂细胞核检测和分割的乳腺癌病理图像数据集

2024-03-20 10:31汪华登王雪馨黎兵兵刘志鹏许浩潘细朋蓝如师罗笑南

中国图象图形学报 2024年3期

汪华登，王雪馨，黎兵兵，刘志鹏，许浩，潘细朋，蓝如师，罗笑南

1.广西图像图形与智能处理重点实验室，桂林 541004；2.桂林电子科技大学计算机与信息安全学院，桂林 541004；3.广东省人民医院赣州医院，赣州市立医院病理科，赣州 341000

0 引言

乳腺癌是目前最常见的恶性肿瘤之一，是中国女性最常见的恶性肿瘤，发病率也在逐年上升。降低乳腺癌死亡率的关键是早期诊断和治疗。乳腺癌病理组织切片结果是乳腺癌诊断的金标准。目前，苏木精和伊红（hematoxylin and eosin staining，H&E）在大多数国家被广泛用于病理切片的染色。H&E染色的组织病理学图像可以直观地显示细胞成分和组织结构。同时，诺丁汉分级系统是乳腺癌分级诊断中使用最广泛的标准，它采用组织学切片中的3 个形态学特征，包括小管形成、核多形性和有丝分裂细胞核的数量。其中，有丝分裂细胞核的数量是乳腺癌分级和诊断的一个重要指标，用于评估肿瘤的增殖和侵袭性，对准确诊断、患者的预后和治疗具有重要意义。

有丝分裂细胞核的计数取决于全视野数字切片（whole slide images，WSIs）中有丝分裂细胞核的正确识别。使用光学显微镜对有丝分裂细胞进行视觉评估是一个耗时和困难的过程，且依赖于病理学家的经验。这是因为病理学家通常必须手动提取凋亡细胞、变形细胞核和淋巴细胞等形态特征，以区分病理图像中的有丝分裂和非有丝分裂细胞。但由于存在较高的复杂性和伪影性，检测和识别容易出错。正常有丝分裂的阶段包括前期、中期、后期和末期，每个阶段各有不同的形态学特征，如图1 所示，并且在载玻片中观察到的有丝分裂也可能处于阶段之间的过渡状态（Wang等，2024）。细胞分裂过程中的异常可导致与正常有丝分裂不同的形态学表现，称为非典型有丝分裂（例如，三极有丝分裂象）。

图1 有丝分裂演变的4个阶段Fig.1 The four stages of mitosis evolution

在病理学家的视觉评估中，需要将有丝分裂和非典型有丝分裂的形态学特征与非有丝分裂区分开来。然而，有丝分裂细胞核与非有丝分裂细胞核极易混淆。如图2 和图3 所示，在组织切片中，不同种类的细胞核之间的差异不大，并且一些凋亡细胞通常具有与有丝分裂相似的形态学外观。病理学家通常很难做出这种区分，因此研究人员已经开发了一些基于人工智能的计算机辅助系统，来规避有丝分裂检测和识别过程中的主观性和困难。

图2 有丝分裂细胞核Fig.2 Mitosis nuclei

图3 非有丝分裂细胞核Fig.3 Non-mitosis nuclei

到目前为止，已经诞生了许多自动检测有丝分裂细胞核的竞赛，在这些竞赛中研究人员共享了几个有丝分裂数据集，例如：TUPAC 16（tumor proliferation assessment challenge 2016）挑战赛（Veta 等，2019）、MITOS-ATYPIA-2014（mitotic atypia）挑战赛（Frédérique，2014）和MIDOG 2021（mitosis domain generalization 2021）挑战赛（Aubreville等，2023）。研究人员也提出了许多自动检测方法，并在这些公开数据集上进行了实验测试，本文按照数据集划分整理了一些典型的有丝分裂检测与分割方法，如图4所示。

图4 有丝分裂公开数据集上的代表方法Fig.4 Typical methods on mitosis public dataset

尽管这些公开数据集在有丝分裂细胞核自动检测识别方法的研究中取得了进展，但其仍存在一些局限性。1）标本制备和染色技术的不同。在乳腺组织病理图像切片的制作过程中，对于不同病理实验室使用的不同型号扫描仪，采用的不同技术的H&E染色病理图像的不同深度对检测结果都有较大的影响。2）WSI的质量。现有的有丝分裂数据集包含许多困难样本，检测模型很难准确分类。3）可用数据集中的有丝分裂样本数量有限。4）有丝分裂中的正负样本不平衡问题。在单个高倍镜视野（high power field，HPF）中的有丝分裂密度非常低，导致数据集中阳性样本数量很少，阴性样本数量很多，难以提取有效特征。5）缺乏可用的完整的有丝分裂数据集。目前有关有丝分裂检测的数据集并不充足，现有的公开数据集多来自一些学术会议竞赛，图像质量高于直接来自医院的数据，且不能覆盖所有的病理类型，导致所提出的模型泛化能力差，实际应用困难。这些因素严重影响了有丝分裂检测中的特征提取和准确识别，以及相关研究和应用的进展。

如上所述，基于深度学习的的自动检测方法依赖于巨大的数据集来支持模型训练的准确性，且现有的公开数据集图像质量普遍偏高，不能完全反映模型的性能。因此，构建大规模且具有准确标注的、直接来自临床环境的乳腺癌病理图像数据集，对于开展本领域相关研究具有重要意义。为此，本文提出了一个新的用于有丝分裂细胞核检测的数据集GZMH（该名称源自数据集来源单位赣州市立医院的英文名称Ganzhou Municipal Hospital），并基于该数据集验证了一些经典的基于深度学习的检测模型和分割模型的效果。该数据集包含来自22例患者的55幅WSI，并由专业病理医师提供了用于目标检测和语义分割研究的两类精细注释，且由2 名高年资病理医师进行了复核，保证了数据的真实性和准确性。此外，本数据集在构造过程中充分考虑到了占用内存大、细胞核碎片等问题，通过4 个方案版本的不断优化，形成了最终可用的数据集。本文提出的数据集的在线发布地址为：https://doi.org/10.57760/sciencedb.08547。

1 GZMH数据集介绍

本数据集中的病理图像数据均来自江西赣州市立医院，并经过专业医师对核分裂象的轮廓进行了精细标注，且经过二次复核。所有数据利用数字切片扫描仪（江丰数字切片扫描仪，KF-PRO120）将H&E 染色切片进行扫描，扫描倍数为40 倍，分辨率为0.25 um/pixel，输出格式为SVS（aperio scanscope virtual slide）格式的WSI，接着进行肿瘤细胞的核分裂象的人工标注。乳腺癌肿瘤细胞核分裂象人工标记数据采用多级医生复核制进行确定核分裂象，由3 名病理医生标注（1 名住院医生、2 名主治医生；工作经验均在5 年以上），2 名高年资病理医生复核（2 名主任医生；工作经验均在10 年以上）。如标记复核结果不同，则由5 名病理医生共同复片确定是否为核分裂象。该数据集共包含了来自22 位病人的55 幅WSI。数据集分为训练集与测试集两部分，其中训练集包含来自20位病人的 48幅WSI，测试集包含来自2位病人的7幅WSI。具体形式为1 534幅分辨率为2 084 × 2 084 像素的RGB 通道电子图像，及其对应的单通道黑白二值标签。训练集包含1 192幅HPF图像，共1 832个有丝分裂区域；测试集包括342 幅HPF 图像，共523 个有丝分裂区域，并且训练集和测试集均来自不同病人，彼此之间无交叉。图5显示了GZMH数据集的一些示例图像。

图5 来自GZMH数据集的示例图像Fig.5 Sample images from the GZMH dataset

1.1 数据挑选

在处理GZMH 数据集的原始数据时，经过数据挑选和数据处理两个并行阶段的多次迭代，以避免类别不平衡和细胞核碎片问题。

在数据挑选阶段，数据集选取了赣医有精细标注（即较为精细地勾画细胞核轮廓，使其精度可用于语义分割）的109 幅WSI，然后又从中选取了来自同一医院的55 幅WSI 作为GZMH 的原始数据；期间经过多次验证，尽管这55 幅WSI 中的部分WSI 效果更好，但是考虑到数据规模和实际情况，仍使用了全部55幅WSI，并按病人划分成训练集和测试集，彼此无交叉。

1.2 数据处理

在数据处理阶段，由于考虑到内存、细胞核碎片等问题，经过至少4次技术路线的重大调整。

初始时考虑遍历XML（extensible markup language）文件中的坐标信息对每一个核分裂象裁剪出2 048 × 2 048 像素的HPF，但是该方式会造成相近区域的大量重复裁剪，并且无法避免位于HPF 之间边界区域细胞核碎片的产生，因此该方案被否决，此为数据处理的方案1。

为了减少细胞核碎片及避免重复裁剪，使用遍历和细胞核边界位置的判断方法，此时窗口由2 048 × 2 048像素改为2 084 × 2 084像素，目的是与ICPR 2012 公开数据集保持一致。此方案为使用窗口在WSI 上滑动，当遇到有丝分裂细胞核时检测该标记区域的最小外接矩形是否完全容纳在当前HPF中，若不能，则放弃该细胞核。此方案避免了相邻有丝分裂细胞核背景区域的重复裁剪，并且有效减少了裁剪导致的细胞核碎片。但是边界位置检测操作复杂，因此该方案被否决，此为方案2。

为了简化操作，在方案2 上去除边界检测，直接用滑动窗口在WSI 上裁剪XML 文件中对应区域有标记的HPF，但是该方法会带来更多的细胞核碎片。因此该方案仍被否决，此为方案3。

出于简化操作和减少细胞核碎片的目的，仍然使用滑动窗口在WSI 上进行裁剪，但是从XML 文件标记的有丝分裂细胞核区域中获取该细胞核所在的HPF 位置，并仅在细胞核外接矩形的中心处于当前HPF 范围内时才进行唯一一次裁剪，即如果当前HPF包含多个核分裂象，也仅裁剪一次，当遍历到该HPF 的其他细胞核时由于已经裁剪过，因此直接跳过。为了避免过多细胞核碎片，只保留细胞核外接矩形中心点所在的网格。如图6 所示，黑色细胞核完整，红色细胞核保留右侧，绿色细胞核保留右下角。该方案极大降低了对计算机内存的要求，其核心仅需要支持生成HPF 和读取WSI 对应位置的内存大小，并且有效减少了细胞核碎片。因此该方案为最终方案，称为方案4。

针对上述4 个版本的数据处理方式，究其原因，主要是受到以下3方面问题的影响：

1）内存问题。由于WSI 图像体积极大，单幅图像的物理内存大小一般为500 MB～2 GB之间，分辨率可达到百亿像素（100 000 × 100 000 级别），因此方案1 和方案2 在生成预定义的全尺寸全0 标签时物理内存需要至少8 GB 随机存取存储器（random access memory，RAM）才能进行正常操作，但其仍不能满足部分更大的WSI 的处理需求，并且此时处理速度极慢，因为有丝分裂细胞核的稀疏性，绝大部分计算时间都是无效计算。而改进后的方案3 和方案4 仅在检测到需要裁剪HPF 时才申请预定义的2 084 × 2 084 像素大小的标签所需的内存，这两个方案几乎不存在内存瓶颈，足以匹配内存更小的计算机的处理能力。

2）细胞核碎片问题。在裁剪HPF 时处于交界位置的有丝分裂细胞核会被裁剪到多幅HPF 中，产生了一定数量的细胞核碎片，而目前在至少ICPR 2012 和ICPR 2014 两个公开数据集中都发现了有位于边界区域不完整的有丝分裂细胞核，因此在GZMH 中也有少量细胞核碎片。但要注意的是，细胞核碎片的产生并不是期望的结果，而是使用滑动窗口统一尺寸裁剪时不能完全避免的。从方案1 到方案4，细胞核碎片的数量是逐渐降低的，最终的细胞核碎片数量在训练集和测试集中均只有几个，说明这些方案改进是非常有效的。此时裁剪生成的HPF 和标签构成了GZMH 数据集，而标记区域的最小外接矩形的坐标和质心坐标则是因为在HPF 和对应标签的基础之上额外检测生成的，因此也包含了上述几个细胞核碎片。

3）数据格式问题。SVS 格式和TIFF（tag image file format）格式一样都是金字塔式数据结构，同时将不同分辨率或清晰度的图像叠加在一起，在放大或缩小时展示的是不同分辨率的图像，其容量巨大，但是相应的处理操作和存储、传输较为困难。而对于SVS 格式的WSI，在处理时可以使用Python 3.5 版本以上的OpenSlide。考虑到数据读取速度和图像质量，一开始使用的为BMP 格式，但是为了减少存储和传输压力，最终数据格式为JPG格式。

1.3 图像标注

GZMH 数据集包括像素级语义分割标签和用于目标检测的标签（核分裂象区域最小外接矩形坐标及质心坐标）。其中像素级分割标签为黑白二值标签，如图7 所示；而外接矩形坐标及质心坐标构成的目标检测标签则为TXT（text）文件。其中，用于目标检测的核分裂象区域最小外接矩形坐标及质心坐标文件格式如图8，红色方框标记为 HPF 文件名，蓝色方框标记为当前 HPF 中包含的标记区域个数，绿色方框标记为标记区域的最小外接矩形的坐标（min_row，min_col，max_row，max_col），黄色方框标记为质心坐标（row，col）。标记结果如图9，红色矩形框标记的即为图7中所记录的位置。

图7 HPF图像及其对应像素级语义分割标签Fig.7 HPF image and its corresponding pixel-level semantic segmentation label（（a）HPF image；（b）black and white binary label）

图8 HPF图像的标记区域的坐标记录Fig.8 Coordinate record of marked area of HPF image

图9 HPF图像的标注结果Fig.9 Annotation results of HPF images

2 相关工作

2.1 常用的公开数据集

目前，有6 个公开的数据集通常用于乳腺癌的有丝分裂检测研究。它们是2012 MITOS（International Conference on Pattern Recognition 2012 dataset）、AMIDA13（assessment of mitosis detection algorithms 2013）、MITOS-ATYPIA-14（mitotic atypia）、TUPAC16（tumor proliferation assessment challenge 2016）、CCMCT2019（canine cutaneous mast cell tumor）和MIDOG 2021（mitosis domain generalization 2021）。这些数据集为世界各地感兴趣的学者提供了一个统一的和可用的标准。公开数据集的发布，使得不同方法的实验结果的比较和讨论分析，可以有一个统一的评价标准。

2.1.1 2012 MITOS

2012 MITOS 数据集（Roux 等，2013）是ICPR（IEEE International Conference on Pattern Recognition）在2012 年举办的有丝分裂竞赛的公共数据集。该数据集由Frédérique Capron 和Catherine Genestie 提供。2012 MITOS数据集是第1个可用于有丝分裂检测的公开数据集。该数据集共包含5 个经H&E 染色的乳腺癌活检切片。在每幅WSI 中，病理学家选择了10 个40 倍放大的高倍镜视野（HPF）图像。数据集有50 个HPF，其中包含300 多个有丝分裂细胞核。采用Aperio XT 扫描仪（扫描仪A）、Hamamatsu NanoZoomer 扫描仪（扫描仪H）和10 波段多光谱显微镜（M）对载玻片进行扫描而来。每个HPF 的有丝分裂像都由病理学家进行了标注。此外，还给出了每个有丝分裂细胞核的质心坐标。

2.1.2 AMIDA13

AMIDA13 数据集（Veta 等，2015）于2013 年由MICCAI 有丝分裂挑战赛发布。由于在数据集中选择的载玻片是在不同的时间制备的，所以它包含了不同的因素，如组织变异性和染色变异性。这样，数据集就更接近临床情况。由于该数据集的标注整合了多个病理学家的意见，减少了不同的观察者造成的差异。由23 例乳腺癌病例经扫描显微镜XT 扫描仪放大40 倍数字化后，以每幅图像2 000 × 2 000 像素的分辨率划分为HPF。在整个数据集中，共标注了1 157 个有丝分裂细胞核。在这23 个病例中，有12个病例的数据集用于训练，11个用于测试。

2.1.3 MITOS-ATYPIA-14

MITOS-ATYPIA-14 数据集由Frédérique Capron团队提供。该数据集用于有丝分裂的检测和核异型性的评估两项任务，在每幅病理切片中，经扫描仪放大20 倍数字化后用于核异型性评估任务；经扫描仪放大40 倍数字化后用于有丝分裂检测任务。同时，该数据集结合了多个病理学家的意见。MITOSATYPIA-14 给出了3 种标注，分别是真正的有丝分裂、疑似有丝分裂和非有丝分裂。病理切片经H&E染色，经Aperio Scanscope XT 和Hamamatsu Nanozoomer 2.0-HT扫描而来。

2.1.4 TUPAC 16

除了上述3 个较常用的数据集外，2016 年在肿瘤增殖挑战赛中发布了带标注的有丝分裂数据集，可供相关方使用。在这个数据集中，有来自3 个不同病理中心的73例病例。其中，前23例病例的数据取自AMIDA 第13次挑战。新添加的50幅切片则分别为用Leica SCN400 扫描仪扫描的HPF 图像，每幅图像的尺寸为5 657 × 5 657像素。

2.1.5 CCMCT 2019

CCMCT 数据集（Bertram 等，2019）是一个用于显微镜细胞注释的大规模数据集，经专家手动注释，提供了完整的WSI 标签。此外，手动注释中可能遗漏的有丝分裂数字由深度神经网络检测到，随后由两名专家进行评估，从而提出算法辅助数据集，其显著特征是在WSI水平上使用算法辅助注释和专家的共识可获得完整的有丝分裂图注释。数据经ScanScope CS2 扫描仪放大400 倍数字化，包括32 幅犬皮肤肥大细胞肿瘤的全切片（WSI）图像，包含不同级别的病例。切片标注包括：有丝分裂、瘤肥大细胞、炎性粒细胞和疑似有丝分裂像。共有262 481 个标注，其中44 880个代表有丝分裂细胞核。

2.1.6 MIDOG 2021

此数据集由使用4 种不同的全玻片图像扫描仪采集的人类乳腺癌组织样本组成：Hamamatsu XR nanozoomer 2.0、Hamamatsu S360（0.5 NA）、Aperio ScanScope CS2 和Leica GT450。数据集包括200 幅WSI，病理学家从每个WSI 中选择2 mm² 的区域，对应于大约10 个HPF。训练集包含1 721 个有丝分裂图和2 714 个困难样本（非有丝分裂图）。测试集包含以与训练集中相同的方式获取，但来自不同的肿瘤病例的图像。

表1 介绍了乳腺癌有丝分裂检测中常用的公开数据集和本文所提出的GZMH 数据集。其中，前3 个数据集更常为研究人员使用。最常用的数据集是在ICPR 举办的比赛中提供的2012 MITOS 数据集和MITOS-ATYPIA-14数据集。

表1 乳腺癌有丝分裂检测的数据集Table 1 Datasets for the detection of mitosis in breast cancer

2.2 相关方法

2.2.1 传统方法

在传统的方法中，为了检测H&E 染色的乳腺癌病理切片中的有丝分裂细胞核，采用的是图像处理技术，通过手工设计和选择特征来实现自动检测。所选择的特征用于训练分类器在病理切片中区分非有丝分裂细胞核和有丝分裂细胞核。整个过程一般分为两步：分割和分类。在第1 步中，选择候选区域并进行分割，将检测范围缩小到固定的候选区域。这一步是为了实现细胞核区域的筛选和分割，因为有丝分裂主要发生在细胞核内。第2 步是分类，它涉及到提取用于训练分类器的候选单元特征。然后，通过训练好的分类器将候选样本分为有丝分裂和其他部分。

传统的有丝分裂检测方法主要是对病理切片进行人工阅片。在对候选区域分割之前，对图像进行预处理，并手工设计要提取的特征。为了平衡数据或突出显示特性，需要进行一系列的预处理操作。在传统方法的第1 步中，通常通过最大似然估计（maximum likelihood estimation，MLE）、阈值分割和分水岭分割来实现候选区域提取。对于特征提取，传统的方法通常基于先验和特定领域知识设计特征。然后，进行进一步特征选择和融合，选择最合适的特征和组合模式来代表有丝分裂细胞核的特征。

在ICPR 2012 MITOS、AMIDA 2013 和ICPR MITOS-ATYPIA-2014 数据集上，传统方法虽然也取得了具有竞争力的性能。然而，这种方法并不能很好地适用于大规模的数据集，主要是因为对有丝分裂细胞核的手动标注费时费力，并且不能很好地推广应用到新的数据集。

2.2.2 深度学习方法

深度学习方法在ImageNet大规模视觉识别挑战（ILSVRC 2012）（Russakovsky 等，2015）中的出色表现推动了计算机视觉领域的巨大发展。它使用卷积神经网络（convolutional neural network，CNN）从训练图像中学习重要的特征。这种基于CNN 的方法极大地提高了计算机视觉任务的效果，如图像分类、目标检测和图像分割。由于深度学习具有较强的特征提取和自学习能力，神经网络在医学图像处理（Litjens 等，2017）中也得到了广泛研究和应用。神经网络越来越多地应用于医学图像处理，如有丝分裂检测、细胞核分割和组织分类等。CasNN（cascaded neural network）（Chen 等，2016）使用两阶段方法进行有丝分裂检测，第1 阶段是一个语义分割网络，通过设计一个基于全卷积神经网络的粗检索模型，对候选细胞进行初步定位，然后将定位的候选细胞输入精细识别模型，以区分有丝分裂细胞核和不可识别的细胞核。Deepmitosis（Li等，2018）将第1阶段的检测算法从语义分割转变为目标检测，从而获得了显著的性能提升。MitosisNet（mitosis network）（Alom等，2020）则在第1阶段采用多任务学习方法。深度学习方法虽然已经取得了重大进展，但基准测试主要是在小规模数据集上执行的。

3 GZMH数据集验证与评估

3.1 实验设计

由于GZMH 数据集在图像标注时，提供了像素级语义分割标注和用于目标检测的检测框坐标标注，所以为了对GZMH数据集进行验证评估，采用了语义分割和目标检测两种方法。

检测方法中，使用目标检测任务中有较大影响的YOLOv3（you only look once version 3）（Redmon 和Farhadi，2018）、FSAF（feature selective anchor-free）（Zhu 等，2019）、RetinaNet（Lin 等，2017）、Faster RCNN（faster region convolutional neural networks）（Ren 等，2017）和SSD（single shot multibox detector）（Liu 等，2016）检测模型进行测试。其中，Faster RCNN 结合RPN（region proposed network）结构和Fast RCNN，提高了检测性能；SSD 利用多尺度特征图，自然地处理各种尺寸的目标，而且与其他单阶段方法相比，即使输入图像尺寸较小，SSD 也具有更高的精度；YOLO 系列采用了直接回归的方式获取目标检测的具体位置信息和类别分类信息，极大地降低了计算量，显著提升了检测的速度；FSAF 通过嵌入anchor-free 分支来指导acnhor-based 算法训练；RetinaNet 结合 Focal loss 使得单阶段检测器在精度上能够达到甚至超过两阶段检测器。

语义分割方法中，使用经典的U-Net（U-shaped network）（Ronneberger 等，2015）、SegNet（semantic pixel-wise segmentation network）（Badrinarayanan 等，2017）、R2U-Net（recurrent residual convolutional neural network based on U-Net）（Alom 等，2018）、LinkNet34（Chaurasia 和Culurciello，2017）、Deep-LabV3+（Chen 等，2018）这5 个分割方法进行测试。其中，U-Net在医学图像分割中无疑是最成功的方法之一，它采用的编码器—解码器结构和跳跃连接是一种非常经典的设计方法，且在ISBI（International Symposium on Biomedical Imaging）分割挑战上超越了当时最好的方法；SegNet 可以对图像中的物体所在区域进行分割，例如车、马路和行人等，并且精确到像素级别；R2U-Net是基于U-Net架构的循环卷积神经网络，将UNet、残差网络和RCNN的优势结合到了一起；LinkNet34的主要贡献是在不影响处理时间的条件下得到较高分割准确率；DeepLabV3+利用新的编码器—解码器结构，在提升分割效果的同时，还关注了边界的信息。

实验环境是2 块Intel X4210R、2.40 GHz、10 核20 线程的CPU，256 GB 内存和两个NVIDIA RTX 3090 GPU，以及Ubuntu 16.04操作系统。

3.2 评价指标

检测乳腺癌病理组织切片中有丝分裂的主要目的是显示每张载玻片上的有丝分裂细胞核并计数。一般来说，使用精度pre、查全率re和F1 分数等指标来评估模型的性能，其中精度表示正确预测部分在所有被判断为有丝分裂的细胞核中的比例。查全率表示所有被检测到的有丝分裂细胞核的比例。有时，某些方案的检测在精度和查全率之间有很大的差异，可以通过F1分数指标进行评估。F1分数是对精度和查全率的加权综合考虑。因此，在上述常用的指标中，F1分数指标的参考值最多。

3.3 实验结果分析

由于GZMH 数据集首次发布，所以在此为GZMH 数据集上有丝分裂检测任务与分割任务分别提供一个基线。

检测任务中，选择了一些经典的检测网络进行对比，比较结果如表2 和图10 所示。其中，Faster RCNN 是两阶段目标检测网络的佼佼者，其检测精度在ImageNet 上超过大部分网络，但在此任务中表现并不是很好。Yolo 和RetinaNet 是单阶段目标检测网络，前者工业应用广泛，后者提出的Focal loss很好地解决了正负样本不均衡问题，同样二者在本数据集中分别只达到0.436 和0.476 的F1 分数。FSAF 是RetinaNet 的改进版本，其性能也相似。SSD也是一种单阶段网络，特点是模型小、训练速度快，在工业应用中十分广泛，达到了0.511 的F1 分数，超过了大部分其他网络。

表2 经典检测方法在GZMH数据集上的性能对比Table 2 Comparison of classical detection methods on GZMH

图10 GZMH上经典检测方法的性能比较Fig.10 Performance comparison of classical detection methods on GZMH

分割任务中，同样选择了几种典型的语义分割方法进行比较，如表3 和图11 所示。在训练过程中使用了AdamW 优化器，初始学习率为1E-4，衰减比例为0.1。U-Net、SegNet 等虽然是经典的语义分割模型，但由于GZMH 数据集规模远超公开的ICPR 2012 等数据集，且GZMH 数据集中的数据来自临床数据，病理类型复杂，包含的有丝分裂细胞核总数、病例数量和HPF 总数更多，有丝分裂细胞核的分布更为稀疏，复杂程度更高，因而这些分割方法在GZMH数据集上表现不是很好。其中，R2U-Net取得了最佳性能，F1分数为0.430。

表3 经典分割方法在GZMH数据集上的性能对比Table 3 Comparison of classical segmentation methods on GZMH

图11 GZMH上经典分割方法的性能比较Fig.11 Performance comparison of classical segmentation methods on GZMH

此外，还将同样的方法在公开数据集MIDOG 2021上进行实验，进一步对比公开数据集和本文提出的数据集的差异。由于MIDOG 2021的测试集是不可见的，采取将3个扫描仪的图像作为域外验证集，将训练集划分为一个单独的验证集。表4和图12展示了5个检测方法和5个分割方法在MIDOG 2021数据集的实验结果。其中，SSD 单阶段检测网络取得了最佳效果，Recall 为0.720，F1 分数为0.699。比较模型在公开数据集和GZMH 数据集上的性能，究其原因，在于来自临床数据的GZMH 数据集提供的病理数据总量更大，具有更丰富的病理数据类型，而且由于直接来自医院的病理数据包含更多的噪声和复杂性，更接近实际的应用场景，这也将更有利于有丝分裂技术在计算机检测中的实际应用。

表4 经典方法在MIDOG 2021数据集上的性能对比Table 4 Comparison of classical methods on MIDOG 2021

图12 MIDOG 2021上经典方法的性能比较Fig.12 Performance comparison of classical methods on MIDOG 2021

根据目标检测方法和语义分割方法在GZMH 数据集上的训练和测试结果，可以看出，在规模更大的临床数据集上进行的乳腺癌有丝分裂细胞核检测任务和分割任务，都是十分具有挑战性的。

4 结论

本文提出了一个来自医院临床环境的应用于乳腺癌病理图像有丝分裂检测和分割的数据集GZMH，共包含55 幅WSI、2 355 个有丝分裂像。其主要特点是：病例数据数量大、类型丰富，数据特征更加接近实际的应用场景，从而更有利于面向临床应用的有丝分裂检测与分割研究。采用RetinaNet、SSD、U-Net 和R2U-Net 等经典模型对GZMH 数据集进行了实验，结果表明构建的数据集能够用于有丝分裂细胞检测与分割模型的验证，但也从中看出，在大规模的临床乳腺癌病理图像数据中进行有丝分裂细胞核的检测与分割是一项极具挑战性的任务。这主要是由于GZMH数据集中有丝分裂细胞核分布稀疏、复杂程度更高、对模型的泛化能力挑战性更大等。目前，乳腺癌病理图像有丝分裂细胞核自动检测是一项非常具有挑战的任务，现有的乳腺癌有丝分裂检测算法仍不能用于临床应用，相关研究仍有待进一步推进。

致谢：GZMH 数据集的构建得到了中国江西赣州市立医院的支持，在此表示感谢。