基于乳腺超声视频流和自监督对比学习的肿瘤良恶性分类系统

2024-03-24 03:10唐蕴芯张艳玲
南京大学学报(自然科学版) 2024年1期
关键词:三胞胎乳腺分类

唐蕴芯 ,廖 梅 ,张艳玲* ,张 建,4* ,陈 皓 ,王 炜,4*

(1.南京大学物理学院,南京,210093;2.中山大学附属第三医院超声科,广州,510630;3.杭州精康科技,杭州,310000;4.南京大学脑科学研究院,南京,210093)

作为最常用的成像模态之一,超声(Ultrasound,US)是临床上不可或缺的扫查与诊断工具,具有无损伤、无放射性、低成本等优点.在当前的临床实践中,医学超声在各个专业科室得到了应用,如心电图、乳腺超声、腹部超声、经直肠超声、心血管超声以及产前诊断超声,尤其广泛应用于妇产科[1].一次高质量的超声成像诊断,不仅要求超声图像包含的噪声和伪影少,还要求机器操作者和诊断医生具有丰富的临床经验.近年来,为了减轻医生负担,获得更客观、更准确和更高时效性的诊断,人们致力于开发先进的自动化超声图像识别方法作为医生的辅助工具.

深度学习(Deep Learning,DL)是机器学习的一个分支,是一种表征学习方法,能直接从原始数据自动学习不同层次的抽象特征,被广泛应用于计算机自动图像识别领域,如分割、分类、目标检测等等,也包含医疗影像的自动化识别.医疗影像包括CT(Computed Tomography)影片、医学超声图像、核医学成像、核磁共振成像等,针对特定疾病的诊断算法层出不穷,常见的有肺结核[2-3]、肺结节[4-5]、乳腺结节[6-7]和乳腺癌[8-9]等.目前在图像自动识别领域中常用的深度学习网络有两种,一种是深度卷积神经网络(Convolutional Neural Networks,CNN),另一种是新兴代表ViT(Vision Transformer)[10],但这些深度网络的参数量都非常大,一般以百万(Mega,M)或十亿(Giga,G)为单位,这要求用于训练网络的数据量要足够大,否则深度学习网络会出现过拟合现象,影响模型性能.然而,目前在乳腺超声领域上,公开的有标签数据集只有BUSI,DatasetB 和BUSIS.其中,BUSI 数据集[11]由Al-Dhabyani 团队从600个病人中采集,包含133 张无肿瘤图像、437 张恶性肿瘤图像和210 张良性肿瘤图像,图像平均像素为500×500;DatasetB 数据集[12]来自西班牙萨巴德尔Parc Tauli 公司的UDIAT 诊断中心,一共有163 张图像,其中良性110 张,恶性53 张;BUSIS 数据集[13]由哈尔滨医科大学附属第二医院、青岛大学附属医院和河北医科大学第二医院使用多种超声设备采集,从26~78 岁女性中采集到562 张乳腺超声图像.乳腺超声数据集的严重稀缺,给乳腺肿瘤自动识别任务带来巨大的挑战.

为了解决上述问题,本文采用自监督对比学习[14-15]和迁移学习[16-17]两种技术,将训练分为预训练和微调阶段.和监督学习相比,自监督学习具有无须标注训练样本的优势,能保证大量训练数据的低成本获取,结合大容量的深度学习模型可以发挥巨大的潜力.本文在预训练阶段利用自监督对比学习,从一个无标签的乳腺超声视频数据集中学习通用性知识,再将其迁移到下游的乳腺病变良恶性分类任务中.首先,构建一个无标签乳腺超声视频数据集,包含来自200 位病人的1360 个乳腺超声扫描视频,视频长度为8~10 s,从中选出11805 例目标样本图片,并对每个目标样本动态生成相应的正样本和负样本.将上述样本用于对比学习训练一个三胞胎网络.在预训练阶段,提出多近邻采样及平均化方法来扩充正样本数量,并基于Hard Negative Mining 和Hard Positive Mining 构建对比损失函数Hard Triplet Loss 以挑选困难正负样本,加快模型收敛.预训练完成后,把网络参数迁移到下游的乳腺肿瘤分类任务中,针对一个小的人工标注数据集进行微调.最后报告模型分类性能,并和基于ImageNet的迁移学习模型和其他SOTA(State-of-The-Art)模型进行了比较.

1 自监督对比学习网络模型

本文提出的模型包括两个部分,如图1 所示.虚线上部是一个三胞胎网络(Triplet Network),负责利用视频相邻帧进行预训练.预训练过程中,通过优化卷积网络,使相似样本对应的特征在特征空间具有较近的距离,不相似样本的距离较远.虚线下部是一分类网络,其卷积网络部分与三胞胎网络共享参数,负责对预训练后的模型进行微调.

图1 三胞胎模型的预训练(上半部分)与微调(下半部分)Fig.1 The pretraining (upper part) and finetuning (lower part) of Triplet Network

1.1 自监督对比学习模型及迁移学习

1.1.1 三胞胎网络Triplet Network采用三胞胎网络(Triplet Network),其输入分别是目标样本X、正样本X+和负样本X-,其中,目标样本X是从乳腺超声视频中任意截取的一帧,正样本X+是目标样本X的相邻帧,负样本X-一般来自不同视频.目标样本和正负样本共同组成一个训练批次的预训练样本集,将其输入三胞胎网络,提取图像的特征,最后输出1024 维特征向量f(X+),f(X)和f(X-).如图1 所示,这些特征向量对应1024维特征空间中的特征点.

三胞胎网络本质上是三个共享参数的深度卷积网络.其中,深度卷积网络采用密集型网络DenseNet[18],包括一个7×7 的卷积层、一个3×3 的池化层和四个Dense Block,相邻两个Dense Block 之间插入Transition Layer,最后是全局平均池化和Softmax 分类器.按神经网络的层数可以分为DenseNet121,DenseNet161,DenseNet169和DenseNet201 等.

1.1.2 损失函数优化预训练的基本思想为在特征空间中减小目标样本点与正样本点的距离,加大目标样本点与负样本点的距离.基于此优化目标,本文采用两种损失函数并进行了比较.一种是目前常用的InfoNCE Loss,另一种是本文新发展的Hard Triplet Loss.

InfoNCE Loss 是一种比较常用的解决多分类问题的对比学习损失函数[19-20],由解决二分类问题NCE Loss(Noise Contrastive Estimation)损失函数演变而来[21].InfoNCE Loss 的计算如下[19]:

其中,τ是温度超参数,控制模型对负样本的区分度;Cosine(·)是余弦相似度,分别计算目标样本与正负样本特征向量的相似性;P,K分别是正、负样本的总数;分子表示目标样本和所有正样本特征向量相似度的总和,分母表示目标样本和所有正负样本相似度的总和.目标样本和正样本的相似度越大,和负样本的相似度越小,InfoNCE Loss 就越小,表明预训练越好.

经典的Triplet Loss 定义如下:

其中,M是自定义优化阈值,M≥0;D(·)是特征距离,比较M值与正负样本之间特征距离大小.当D(f(X),f(X-))-D(f(X),f(X+))≥M,正负样本的特征距离大于自定义的阈值M,Triplet Loss=0,则模型不需要梯度下降、更新参数;当D(f(X),f(X-))-D(f(X),f(X+))<M,正负样本的特征距离小于自定义的阈值M,Triplet Loss >0,则Triplet Loss 通过惩罚进一步减小目标样本点和正样本点的距离,加大目标样本点与负样本点的距离.本文采用的特征距离是余弦相似度距离,定义如下:

对于对比学习,每次训练选取的正负样本越多,模型的泛化性就越强[19,22],但一次性把大量图像输入三胞胎网络,对所有图像计算对比损失,进行梯度下降、更新参数,对机器的存储和计算要求很高,模型的收敛速度会非常慢.因此,本文在式(2)的基础上发展了Hard Negative Mining 和Hard Positive Mining.

如图1 所示,每个样本经过深度网络被映射到1024 维特征空间上后,困难的正负样本被挑选出来参与训练.具体地,选择距离目标样本最远的P个正样本以及距离最近的K个负样本进行训练,构建新的对比损失函数Hard Triplet Loss:

其中,W是预训练模型权重,λ是L2正则化系数;,代表困难正样本均值点.

计算每个困难负样本与Mean+的Triplet Loss,Hard Triplet Loss 是这些困难样本的Triplet Loss 的平均.本文中M=0.5,P=K=3,λ=0.0005,为了提高预训练模型的泛化性能,使用带动量的随机梯度下降方法,并使用余弦退火方法平缓下降学习率,下降周期为200,最小学习率eta_min 限制为0.0005.

1.2 参数迁移后微调将预训练得到的深度学习网络迁移到下游的乳腺超声肿瘤良恶性分类任务中.网络的微调过程具体为:固定前面网络层参数不变,优化后面部分层参数,并为模型添加一个新的全连接层和Softmax 层,最后输出判断为良性、恶性的概率.

2 数据集及训练方法

2.1 预训练数据集与SYU 数据集进行微调和测试的数据集包括一个预训练数据集和一个来自中山大学附属第三医院(中大三院)的SYU 数据集.其中,预训练数据集包含目标样本数据集、正样本数据集和负样本数据集.具体如表1 所示.

表1 预训练数据集和SYU 数据集的相关信息Table 1 Statistics of pre-training datasets and SYU datasets

2.1.1 目标样本数据集如表1 所示,目标样本数据集从200 个病人的1360 个乳腺超声视频中构建.目标样本数据集构建步骤如下.

(1)首先,从每个病人的每个视频中每隔五帧截取一张图像,再利用我们之前工作得到的一个DenseUNet 模型[23]来判断截取的图像有无肿瘤.

(2)判断为有肿瘤的图像暂时保留,待同一个视频里面有肿瘤的图像全部筛选完毕,对比所有相邻的图像,调用skimage 库的structural_similarity 方法计算相邻两张图像的相似度.相似度大于0.35 则保存两张图像,相似度小于0.35 则抛弃后一时刻的图像.不断重复步骤(2),直到同一个视频里面所有图像的相似度都大于0.35.

(3)所有视频得到的图像共同构成一个目标样本数据集,共11805 张,经预处理后统一尺寸为224像素×224像素.图2 展示了目标样本数据集中同一视频相邻的三张图像、来自相同病人不同视频的三张图像以及来自不同病人不同视频的五张图像.

图2 目标样本数据集和SYU 数据集的部分乳腺超声图像Fig.2 Examples of breast ultrasound images from target sample dataset and SYU dataset

2.1.2 正负样本数据集如表1 所示,正负样本数据集根据目标样本数据集动态生成.具体步骤为:以目标样本为锚点,从相邻帧选取正样本,从不同病人不同视频随机选取负样本.不考虑从相同病人的其他视频选取负样本,原因是相同病人不同视频拍摄的肿瘤相同,拍摄角度和肿瘤呈现的形态虽然不同,但特征信息相似.

数据增强是一种常见的数据扩增技术,可以对现有数据应用一组变换来生成新样本,如平移、旋转、变形、缩放、颜色空间变换、裁剪等等,目标是生成更多样本以创建更大的数据集.一般地,在对比学习中,大量正样本可通过数据增强生成,但乳腺超声图像对数据增强操作十分敏感,除了小角度旋转和左右翻转操作,其他数据增强的手段均会破坏肿瘤关键的特征信息.为了提高正样本的数量,保证正样本的采样质量,本文提出多近邻采样及平均化方法,具体如图3 所示.

图3 正负样本的采样过程Fig.3 Positives and negatives sampling

多近邻采样及平均化方法如下.

(1)以目标样本为锚点,找到左右相邻n帧、2n帧等间隔的图像,对目标样本和相邻帧进行小角度旋转和左右翻转操作,即图3 中的AUG1 和AUG2,相邻帧与AUG1,AUG2 组成第一批次正样本.

(2)对第一批次中的相邻帧做均值化处理.均值化处理能进一步突出肿瘤的关键特征,也能去除残留的噪声.这些相邻帧均值化图像加上其数据扩增图像组成第二批次正样本,如图3 中相邻帧均值化+AUG1+AUG2 所示.

(3)对第二批次均值化图像进行二次均值化,并进行数据扩增,得到第三批次正样本,如图3 中相邻帧二次均值化+AUG1+AUG2 所示.

由此得到的正样本一共是16 个,如表1 所示,1 个目标样本、16 个正样本和111 个随机采样的负样本组成一个批次进行训练,规定一个批次的样本数是2 的指数,如64,128 等.预训练过程中正负样本采样总量分别是188880 和1310355 个.间隔单位n=5,相邻帧间隔取5,10,15.

2.1.3 SYU 数据集如表1 所示,SYU 数据集来自中大三院[23-24],包括400 张乳腺超声图像,其中175 张良性,225 张恶性,经预处理后统一尺寸为224像素×224像素.按照五折交叉验证方法把SYU 数据集随机分成两个独立的微调数据集和测试数据集,微调数据集含乳腺超声图像320张,测试数据集含乳腺超声图像80 张.图2 展示了SYU 数据集的部分乳腺超声图像.

2.1.4 ImageNet 数据集ImageNet 是一个用于计算机视觉识别研究的大型可视化数据集,由斯坦福大学李飞飞教授带领创建[25],包含14197122张图像和21841 个Synset 索引,常用作评估图像分类算法性能的基准.基于ImageNet 数据集,目前已有一大批有监督的预训练模型,如ResNet,DenseNet,GoogleNet 等,这些模型提高了图像分类[26-27]、目标检测[28-29]、图像分割[30]、图像描述[31-32]等多种任务的性能.

2.2 数据预处理采用模糊增强和双边滤波两种数据预处理方法来降低噪声,增强信噪比.其中,模糊增强利用大津法(OTSU)[33]生成二值化图像,增强肿瘤边缘特征;双边滤波采用加权平均去掉原图尖锐噪声,保留肿瘤的边界.但这两种数据增强均会丢失或削弱肿瘤的有用信息,因此原始图像也予以保留.将原始图像和两种数据增强的图像在通道维度上堆叠在一起,组成三通道图片输入模型.

2.3 模型的训练及评估训练了四个分别以DenseNet121,DenseNet161,DenseNet169 和DenseNet201[18]为骨架的三胞胎网络.在预训 练阶段,输入图像的尺寸统一为224 像素×224 像素,数值归一化到0~1;网络采用带动量的随机梯度下降作为权值更新算法,初始学习率均为1×10-3;使用余弦退火方法平缓下降学习率,下降周期为200,最小学习率eta_min 限制为0.0005.预训练一共包含200 个epoch,每个epoch依次从11805 张图像中选出目标样本,通过多近邻采样及平均化方法得到每个目标样本对应的正样本数据集,从不同病人视频中随机挑选负样本集,把目标样本、正负样本数据集组成一个训练批次,输入三胞胎网络中完成一次迭代训练.实验规定一个epoch 对预训练数据集里所有图像完成一次迭代训练.预训练结束后,保留对比损失最小的模型参数,把最优参数迁移到下游乳腺肿瘤良恶性分类任务中,在三胞胎网络后面加入新的全连接层和Softmax 输出分类结果.微调时冻结网络前面层的参数,解冻Dense Block3 和Dense Block4 的部分参数[18],在SYU 数据集上进行五折交叉验证.

采用机器学习领域常用的评估指标:受试者操作特征曲线下面积(Area Under Curve,AUC)、灵敏度(Sensitivity)和特异度(Specificity).灵敏度和特异度的计算如下:

其中,TP表示将阳性样本预测为阳性,TN表示将阴性样本预测为阴性,FN表示将阳性样本预测为阴性,FP表示将阴性样本预测为阳性.

3 结果与讨论

3.1 两种损失函数结果对比对比预训练损失函数分别为InfoNCE Loss 和Hard Triplet Loss 的三胞胎网络在下游分类任务的分类结果.使用AUC作为模型分类结果的评估指标,在SYU 测试集肿瘤良恶性分类任务上进行计算.AUC越高,算法的分类性能越好.如图4 所示,无论以哪个卷积网络为框架,以Hard Triplet Loss 作为预训练损失函数,其分类结果都比InfoNCE Loss 更好.

图4 四种预训练模型在四种DenseNet 框架下的AUC 对比Fig.4 AUC of four pre-trained models with four DenseNet as backbones

具体的评价结果如表2 所示,表中黑体字表示性能最优.由表可得,与损失函数为InfoNCE Loss 的预训练模型相比,损失函数为Hard Triplet Loss 的预训练模型的AUC提升2%~4%,灵敏度和特异度提升2%~6%.可见本文构建的Hard Triplet Loss 在视频相邻帧对比学习任务上的表现比InfoNCE Loss 更出色.

表2 四种预训练模型在四种DenseNet 框架下的实验结果对比Table 2 Experimental results of four pre-trained models with four DenseNets as backbone

3.2 三胞胎网络、ImageNet 预训练模型和随机初始化模型的对比为了评估三胞胎网络的预训练性能,对比了三种模型.模型1,基于三胞胎网络和视频流进行预训练,利用表1 所示的微调数据集进行微调,再用得到的结果在测试集进行测试,计算各种指标.模型2,基于四种DenseNet 框架的ImageNet 预训练模型,微调和测试同模型1.模型3,使用随机初始化模型,微调和测试同模型1.

使用AUC作为模型分类性能的评估指标,在SYU 测试集肿瘤良恶性分类任务上进行计算,AUC越高,算法的分类性能越好.需要强调的是,实验挑选的是四种没有经过特殊方法训练的ImageNet 预训练模型.对比结果亦如图4 所示.由图可见,和ImageNet 预训练模型及随机初始化模型相比,三胞胎模型的分类性能更好,尤其是以Hard Triplet Loss 为对比损失函数的三胞胎模型,分类性能大幅领先.ImageNet 预训练模型分类的性能甚至比随机初始化模型还要差,在DenseNet161 框架上,ImageNet 预训练模型的AUC仅比随机初始化模型高0.1%,在其余三种框架上,ImageNet 预训练后的分类表现均不如随机初始化模型.

具体的评估结果亦如表2 所示,表中黑体字表示性能最优.

首先,损失函数为Hard Triplet Loss 的三胞胎网络的AUC比ImageNet 预训练模型提高4%~9%,灵敏度和特异度提升9%~10%,充分证明三胞胎网络在预训练阶段捕捉的肿瘤特征比ImageNet 预训练模型捕捉的特征更符合乳腺超声肿瘤分类任务的要求.再者,和随机初始化模型相比,ImageNet 预训练模型的AUC平均下降2.1%,灵敏度和特异度平均下降4.1%,证明ImageNet 预训练模型误导了下游分类任务.这可能因为ImageNet 数据集是自然图像,与乳腺超声图像特征之间的差距较大,ImageNet 预训练模型捕捉的特征不能充分反映肿瘤的信息.由表2 还可以看到,损失函数为Hard Triplet Loss 的三胞胎网络在SYU 数据集上有优异的分类性能.以Hard Triplet Loss 为损失函数的四种卷积网络三胞胎模型,AUC均大于0.93,灵敏度和特异度均超过0.87,尤其在DenseNet-169 卷积网络上,AUC达0.952,灵敏度和特异度均达0.89.需要强调的是,预训练数据集和SYU 数据集是两个独立的数据集,在跨数据集迁移后,三胞胎网络分类的性能表现仍然很突出,证明本文模型的泛化性能强,分类性能优异.

3.3 与其他基于ImageNet 的SOTA 预训练模型的对比为了进一步证明三胞胎网络的分类性能,挑选最先进的三种ImageNet 预训练模型[34],分别是MoCo-v2,BYOL 和SwAV 来进行对比实验,它们采用的是和本文不同的骨架网络.把这些预训练好的模型迁移到SYU 数据集上进行微调和测试,并和前文DenseNet161-ImageNet 预训练模型和DenseNet169-三胞胎网络(使用Hard Triplet Loss)进行对比.实验结果如图5 所示,余下两种指标详见表3,表中黑体字表示性能最优.可见DenseNet169-三胞胎网络(Hard Triplet Loss)的三种指标均领先于所有ImageNet 预训练模型,DenseNet161-ImageNet 预训练模型仅次于三胞胎网络.MoCo-v2,BYOL 和SwAV 的表现基本一致,AUC在0.752~0.764,灵敏度和特异度均在0.665~0.676.原因可能是MoCo-v2,BYOL 和SwAV 三种模型虽然能较好地学习自然图像域的分布,但其自然图像与医学图像内秉的分布不同,所以模型不能很好地跨数据集泛化.

表3 三胞胎网络和其他SOTA 预训练模型的实验结果对比Table 3 Experimental results of our Triplet Network and other SOTA models

图5 三胞胎网络和其他SOTA 预训练模型的AUC 对比Fig.5 AUC of our Triplet Network and other SOTA models

3.4 小数据集训练本文的主要思想是使用视频流数据对模型进行预训练,从而降低对标注数据量的要求,以解决标注数据缺乏和模型过拟合等问题.为此,需测试模型对小样本需求的下限.

从SYU 数据集中随机划分出四个独立小数据集,对每个小数据集进行五折交叉验证.四个小数据集的样本数分别是:80(64 个样本用于训练,16 个样本用于测试,简记为64/16),120(96/24),175(140/35)和190(152/38).

在基于对比学习方法对乳腺超声肿瘤的自动识别和分类任务上,之前的一个SOTA 工作提出了一个多任务框架,利用单个病变的多个视图之间的关系开展对比学习[35].我们重现了这一模型,本文命名为Multi-task LR(Lesion Recognition),并采用和我们的模型一样的预训练和微调数据集进行训练和测试.

图6 给出了五种模型在四个小数据集上的分类性能,包括以DenseNet169 为骨架的两种损失函数的三胞胎模型、基于DenseNet169 的Image-Net 预训练模型、随机初始化模型和Multi-task LR.由图可见,在最小的数据集1 中,三胞胎网络的AUC比DenseNet169-ImageNet 预训练模型高6%,说明三胞胎模型在训练数据只有64 个时,分类性能依然领先.在小数据集2 上,损失函数为Hard Triplet Loss 的DenseNet169-三胞胎网络的AUC超过0.9,在小数据集3 和4 上,AUC分别是0.929 和0.936.DenseNet169-ImageNet 预训练模型和随机初始化模型的AUC均低于0.86.

图6 两种损失函数的DenseNet169-三胞胎网络、Multi-task LR 模型、DenseNet169-ImageNet 预训练模型和随机初始化模型在四个小数据集上AUC 的对比Fig.6 AUC of Triplet Network based on DenseNet169 with two loss functions,Multi-task LR model,DenseNet169-ImageNet pre-trained model and stochastic initialization model on four small datasets

临床上,灵敏度在辅助诊断系统中占有重要地位.如表4 所示,损失函数为Hard Triplet Loss的DenseNet169-三胞胎模型在小数据集2 上的灵敏度是0.835,在小数据集3 和4 上均超过0.86,而DenseNet169-ImageNet 预训练模型的灵敏度均低于0.77.

表4 两种损失函数的DenseNet169-三胞胎网络、Multi-task LR 模型、DenseNet169-ImageNet 预训练模型和随机初始化模型在四个小数据集上三种评价指标的对比Table 4 Three evaluation indicators of Triplet Network based on DenseNet169 with two loss functions,Multi-task LR model,ImageNet pre-trained model based on DenseNet169 and stochastic initialization model on four small datasets

从图6 和表4 可见,本文提出的模型在所有数据集上的各个评价指标都高于Multi-task LR 模型,说明本文提出的模型框架更优.

综上,对于损失函数为Hard Triplet Loss 的DenseNet169-三胞胎模型,仅需96 个标注数据进行微调,就能使模型的分类性能达到一个较好的结果(AUC为0.901,敏感度为0.835),极大降低了基于监督学习的方法对标注数据的依赖,在医疗影像人工智能辅助诊断领域有重要的价值.

4 结论

基于深度学习的医学影像辅助诊断系统在相关领域发挥着越来越大的作用,降低其对标注数据的依赖有很大的学术价值和应用价值.本文从乳腺超声视频流出发,根据病人、视频相邻帧等信息,构建包含目标样本和正负样本的非标注数据集,并通过自监督对比学习对一个三胞胎网络进行预训练,然后把模型迁移到下游小样本乳腺肿瘤良恶性分类任务中,以解决医疗数据中标注数据缺乏的问题.本文还提出多近邻采样及平均化方法扩充正样本数量,并利用Hard Negative Mining 和Hard Positive Mining 方法挑选困难正负样本以构建损失函数,加快模型收敛、提高预测精度.

从实验结果可见,经过预训练的三胞胎网络在SYU 数据集上的AUC最高可达0.952,和基于DenseNet 框架的ImageNet 预训练模型相比,平均高6.7%,比MoCo-v2,BYOL 和SwAV 三种ImageNet 预训练模型平均高19.47%,灵敏度和特异度均达到0.89,说明本文模型的分类性能优于ImageNet 预训练模型.此外,与之前的一个针对乳腺超声的多视图对比模型相比,本文模型具有更好的分类性能.最后,通过对标注样本量需求下限的测试,发现仅需96 个微调数据模型就能出色地完成下游分类任务.

本文模型还可在以下方面继续优化,包括优化网络架构以提高训练速度,进行多中心合作以扩充数据集,融合多个模态如X 射线、磁共振等数据.另外,肿瘤分类任务可与其他如异常检测、分割和定位等相关任务联合进行多任务学习,通过共享特征表示来提高模型的性能和泛化能力.还可以和传统的基于影像组学的方法融合,输入不同类型和分级的肿瘤形状、纹理等特征来加快收敛和提高泛化能力.为了将研究成果转化为实际临床应用,还需对不同来源的数据集进行微调和测试,增强其泛化能力和鲁棒性,并最终在真实的医疗环境中进行验证.最后,增强模型的可解释性,也是临床应用上需要关注的方面.

综上,本文基于深度学习和自监督对比学习技术,从乳腺超声视频流出发,搭建数据集、预训练了一个三胞胎网络模型,并应用于下游肿瘤分类任务.测试结果优于同类SOTA 模型,并在只有少量标签数据的情况下,可达到良好的分类性能,有较好的临床应用前景.

猜你喜欢
三胞胎乳腺分类
“三胞胎”小狗
分类算一算
分类讨论求坐标
体检查出乳腺增生或结节,该怎么办
数据分析中的分类讨论
奇葩三胞胎 竟然差3岁
教你一招:数的分类
得了乳腺增生,要怎么办?
美夫妇诞下三胞胎为区分涂不同色指甲油
角王国里的“三胞胎”