多特性融合图卷积方法的分子生物活性预测

2021-12-02 06:38谭露露张鑫鑫周银座

电子科技大学学报 2021年6期

谭露露，张鑫鑫，周银座*

（1. 杭州师范大学阿里巴巴商学院杭州 311121；2. 杭州电子科技大学通信工程学院杭州 310018）

药物开发周期长、耗资大，药物流失率高。目前，每10 个候选药物中就有9 个在I 期临床试验或监管批准时失败[1]。为改善药物发现过程效率低下的状况，缩短新药研发周期及提高成功率，药物化学家们提出了定量构效关系（quantitative structure -activity relationships, QSAR）的概念。QSAR 是对已知先导化合物的一系列衍生物进行定量的生物活性测定，分析衍生物的理化参数与生物活性的关系，建立结构与生物活性之间的数学模型，并以这种数学模型来指导药物分子设计[2]。早期阶段，机器学习方法是QSAR 领域较为常用的建模方法。由于传统机器学习方法只能处理固定大小的输入，大多早期的QSAR 建模都是针对不同任务，人工生成相应的固定长度的分子描述符。常用的分子描述符包括[3]：1）分子指纹，通过一系列表示特定子结构的二进制数字对分子结构进行编码[3]；2）一维/二维分子描述符：由统计学家和化学家处理的描述分子物理化学和微分拓扑衍生的描述符[3]。常用的建模方法包括线性方法（如线性回归）和非线性方法（如支持向量机、随机森林等）。近年来，深度学习方法已成为QSAR 建模的最新研究方向。

过去十年中，深度学习已成为各领域的主要建模方法，尤其在医学领域，涉及生物活性预测、药物从头设计、医学图像分析和合成预测等多个方向。卷积神经网络（convolutional neural networks, CNN）是深度学习中的一种特殊架构，已成功解决了结构化数据（如图像）的问题[4]。但是，当图形具有不规则形状和大小、节点位置没有空间顺序且节点的邻居也与位置有关时，传统卷积神经网络则不能直接应用于图上。针对这种非欧式结构化数据，研究者们提出了图卷积网络（graph convolutional network,GCN），且基于此提出了各种衍生架构。文献[5]提出了第一个图神经网络（graph neural networks,GNN），该架构基于递归神经网络学习了无向图、有向图和循环图的体系结构。文献[6]基于频谱图理论提出了图卷积网络。目前，已有其他形式的GCN，如图注意网络（graph attention network, GAT）、图自动编码器和时空图卷积等。

近几年，已有多数研究将图卷积应用于分子的生物活性预测。在化学图论中，化合物结构通常表示为氢贫化（省略氢）的分子图，每个化合物都以无向图表示，原子为节点，键为边。原子和键均包含很多属性例如原子类型、键类型等。文献[7]利用节点（原子）和边（键）的属性建立图卷积模型。文献[8]创建了原子特征向量和键特征向量，并将二者拼接形成原子键特征向量。文献[9]提出了图记忆网络（graphMem），这是一种记忆增强的神经网络，该网络可用于处理具有多种键类型的分子图。MPNN[10]阶段性地总结了GNN 模型，摒弃手工特征，迈出了将GNN 应用于分子图的重要一步。SchNet[11]推动了GNN 在分子动力学模拟中的应用，使之符合物理学约束方程。DimeNet[12]对分子中的方向性信息进行建模，使得模型的预测精度更进一步。在这些研究中，都未对节点特征和键属性加以区分，没有关注其内部联系。但事实上，为原子对之间的各种相互作用类型赋予不同权重才是较为准确的方法。

最近，文献[13]提出一种基于边注意的图卷积神经网络算法（edge attention graph convolutional network, EAGCN），该算法提出了一个边缘注意层来评估分子中每条边的权重：预先构建了一个属性张量，经过注意层处理后，生成多个注意权重张量，其中每个张量都包含数据集中（分子图）一个边属性的所有可能的注意权重。然后，通过查找该权重张量中分子的每个键的值来构建注意力矩阵。这种方法使得模型可以在不同层次和不同边属性上学习不同的注意力权重。经实验证明，EAGCN 框架具有很高的适用性，并且直接从图结构中学习特定的分子特征，避免了数据预处理阶段带来的误差。

本文基于EAGCN 框架，考虑到无法自适应学习特征重要度带来的不稳定性，提出了基于多特性融合的注意力图卷积模型（multi-feature fusion dge attention graph convolutional network, MF_EAGCN），其中的多特性融合方案是基于自注意力机制的特征融合方式，能够有效地让模型自适应调节多个特征张量的权重分配。本文使用多种筛选方法对PubChem数据库中的靶标等内容作出限制，选择了不同类型的几种生物活性数据集，并将本文算法与几种基准模型同时应用于其中，分析评估了各自的性能。

1 图卷积方法

在化学图论中，化合物结构通常表示为氢贫化的分子图，每个化合物以无向图表示，原子为节点，键为边。其中，分子的属性信息包括原子属性和键属性[14]，具体描述见表1 和表2。这些属性对于描述两个原子之间的键合强度、芳香性或键合共振等特征非常重要。如果将不同的边属性进行注意层处理，则不同的边属性对应于不同的边注意矩阵。

表1 原子属性表述

表2 键属性表述

1.1 图卷积相关定义

定义1 图使用G=(V,E)表示，V为节点的有限集，|V|=N，N为节点数，E⊆V×V是边的有限集合。

定义2G的邻接矩阵A是一个方阵，维度为N×N。ai j=1代表节点i和j之间有连边，反之ai j=0则代表节点间无连边。

定义3 为G构建一个节点特征张量Hl∈RN×RF，F为每个节点的特征总数。第i行表示节点i的特征和一系列边属性，这里令K为边属性个数。

定义4 假设对于边属性i，有di种可能的类型。

定义5 为G构造一个分子属性张量M∈RNatom×Natom×Nfeatures（Nfeatures即为定义3 中的F）作为注意层的输入。

1.2 基于边注意的图卷积

EAGCN[13]在不同层次和不同边属性上学习不同的注意力权重，从而构建一个分子的注意力矩阵。该算法预先构建了一个属性张量，经过注意层处理后，生成多个注意权重张量，其中每个都包含数据集中一个边属性的所有可能的注意权重。然后，通过查找该权重张量中分子的对应键值来构建注意力矩阵。这种方法使得不同分子可对应不同的注意力矩阵。

EAGCN 利用分子的原子和键属性，为每个分子构建1 个邻接矩阵A、1 个节点特征张量Hl和1 个分子属性张量M用于模型训练。模型总流程如图1 所示，整个模型将分子图作为输入，处理分子图中的边属性后得到边属性张量，one-hot 编码后分别经过GAT 层得到5 个图卷积特征，再经过concat 拼接方式获得总张量特征，以此作为下一层GAT 层的输入。最后使用两层dense 层输出结果。

图1 EAGCN 模型流程

先通过具有di个输入通道和1 个输出通道的卷积处理，使用尺寸为1 ×1×di的过滤器Dli，以1 为步长移动。其中，l表示在第l层边注意层。

其次为了使权重在不同边中具有可比性，使用softmax 函数对权重进行归一化，如式（2）所示。softmax 函数又称为归一化指数函数，得到的输出值互相关联，它可以将其量化到0～1 范围内，将多分类的结果以概率形式输出，且输出值总和为1。

1.3 基于多特性融合的注意力图卷积

本文将EAGCN 用于本文收集的不同种类的生物活性预测数据集，得到了比传统机器学习更好的模型性能。而EAGCN 模型的某些特性是使得其在大多生物活性数据集上性能较优的原因：

1）其直接对分子图进行学习，可以很好地避免人工筛选特征带来的误差，一定程度上提升了模型的鲁棒性和可靠性；

2）其生成的注意权重矩阵取决于一个节点的领域特性，而不是全局特性；且权重可在所有图中共享，于是可通过共享的特征来实现数据的局部特性提取。

在原始模型中，权重张量经过图卷积处理得到特征后，整合特征图信息时常使用concat 方式合并通道。concat 经常用于将特征联合、多个算法框架提取的图特征融合又或是将输出层的信息进行融合，将融合后的特征作为下一个网络层的输入。concat 虽然较为常用，但也存在一些问题：其只是简单的特征张量的维度拼接，相当于只是通道数的增加。这只是增加了图像本身的特征，对于多特征的重要度分析并没有起到太大作用。这不仅会导致多个属性信息没有区分度，增加维度还可能会降低模型的计算效率，影响模型性能。于是本文提出使用多特性融合的方式替换concat 方法。在EAGCN中，注意力机制被用于从邻居节点那里学习节点对之间边的交互强度，简单来说是为了得知边在整个图中的重要性。经过实验可知“原子对类型”这一边属性对整个模型性能影响较大，因此在设置网络通道数参数时，本文将为原子对类型的特征矩阵设置更高的通道数，相当于使用人工设置偏向权重的方法，这种方法存在一定的不稳定性。

为了更科学地知道每种边属性特征的重要性，且能够有效地让模型自适应调节多个特征张量的权重分配，本文提出了多特性融合的方法进行算法优化。这是基于自注意力机制（self-attention）[15]的特征融合方案，它可以对输入的每个元素赋予不同的权重参数，从而“挑出”每种特征中较为重要的信息，抑制但不丢失其他信息。其最大的优势就是能一步到位地考虑全局联系和局部联系，可以进一步提高模型的学习效率。

EAGCN 为每张图生成了分子属性张量M，为了计算得到每种属性中不同边的权重，将分子属性张量M进行one-hot 编码，再将多个属性张量输入注意层，进而得到多个边权重张量Alatt,i。经过图卷积层的处理后得到特征张量Hl+1，将concat 融合方式替换为多特性融合方案，具体步骤如下。

1）为每个输入生成Q、K、V张量

将得到的5 个特征张量Hil+1作为输入。Hil+1的维度根据模型中设置的通道数而变化。以一个维度为N×30 的图特征张量Hil+1为例，先为每个特征张量设置3 个不同的张量，分别为查询Q、键K、值V，长度默认为64。WQ,WK,WV是3 个不同的权重张量（3 个张量维度相同，都为30×64），用特征张量Hil+1分别与它们相乘，得到对应的Q、K、V张量，计算示例如图2 所示。上述过程在计算时其实是基于矩阵运算的，即运算时是将输入张量合并计算的。

图2 多特性融合方式流程

2）计算得分

将每个特征的键向量和查询向量进行点积运算，得到其分数：score=Q×K

3） score 归一化

4） softmax 归一化

使用softmax 对所有特征张量的score 进行归一化，使得到的score 都为正且和为1。这一步的目的是初步得到每个边属性对于整个图的权重。

5）求输出张量评分

将值张量V与softmax 分数点乘，得到加权的每个输入张量（图卷积特征）的评分v。

1.4 数据集

本文所选用的数据集来自于一个公共化学数据库PubChem[16]。本文选用了文献中的多种分析筛选方法[14]，选择了相同类型和不同类型的生物活性数据集，对筛选的靶标等作出了限制，如筛选了细胞色素P450 酶的多个系列。最终本文选用了1851靶标家族中细胞色素酶P450 系列的4 个数据集、两种抑制剂和识别结合r（CAG） RNA 重复序列的分子系列。表3 列出了所选用的数据集的相关信息以及筛选条件。

根据表4各区县的风险值及表5的雷电灾害综合风险值R评判标准，可得到长沙地区雷电灾害风险区划结果，如表6所示，结果表明长沙县、宁乡县为雷击灾害极高易损区，望城区为高易损区，天心区、岳麓区、浏阳市为中易损区，芙蓉区、开福区、雨花区为低易损区。

表3 本文所使用的来源于PubChem 数据库的分类数据集信息

2 数值仿真结果

2.1 数据处理

分子的生物活性研究中，输入数据是QSAR研究的基础，不同的算法模型所使用的分子输入数据形式也是不同的。分子的表示形式常见的有：分子标识符、分子描述符两种。

分子标识符是基于文本的标识符，如简化分子线性输入规范（simplified molecular input line entry system, SMILES）[17]和国际化学标识符（InChl）[18]。SMILES 是用一组有序规则和专门语法将三维化学结构编码的文本字符串[17]，是一种用于存储化学信息的语言结构。如二氧化碳（CO2）的SMILES 标识符为O=C=O。SMILES 是目前QSAR 建模中较常使用的标识符。

国际化学标识符InChl 用不同的化学信息层（连通性、立体化学、同位素和互变异构体）来表达化学结构[18]。但后期多项研究发现，其复杂的数字公式会导致预测性能下降，因此并未在深度学习中经常使用。

分子描述符是早期QSAR 研究的基础，传统机器学习模型无法识别及处理分子结构，将分子的物理化学性质或分子结构相关参数，利用各种算法推导出模型可以处理的数值。

目前，用于分子描述符的计算工具有很多种，包括各种开源或商业软件及各种开源库。可以生成的分子描述符已接近10 000 个，包括1D、2D、3D 描述符以及一些指纹描述符等。近些年，常用的分子描述符计算软件有Dragon[19]、alvaDesc[20]、Gaussian[21]、Padel-Descriptor[22]、OpenBabel[23]等。其中，经典的Dragon 软件已迭代到7.0 版本，可以计算几千种分子描述符，但不幸的是已经停产，进而代替它的是alvaDesc。alvaDesc 可计算5 305种分子描述符（包括Dragon 7 中可用的所有描述符），以及一些特殊描述符如MACCS 指纹的计算。常用的化学库有RDkit[24]等。RDkit 是非常著名的开源化学信息软件包，提供了Python 和C++语言的API 接口，不仅可以计算各种分子描述符，还可以进行分子可视化及化学分析等工作，适用性极好。

本文实验将MF_EAGCN 与EAGCN、随机森林（random forest, RF）、支持向量机（support vector machines, SVM）及深度神经网络（deep neural networks, DNN）用于相同的数据中。在传统机器学习方法中（RF、SVM、DNN），需要使用计算生成的分子描述符，因此本文在设计实验前，对于分子SMILES 数据，使用RDKit（开源化学计算软件包）生成的200 个一维分子描述符作为基准模型的特征；同时将RDKit 计算出的分子的原子属性、边属性用于本文算法。

2.2 实验装置

首先将EAGCN 应用于本文选用的不同类型生物活性分类数据集，然后将基于多特性融合的注意力图卷积应用于同样的数据集中。本节设计实验的目的是：1）验证基于边注意的图卷积模型相较于传统机器学习方法（如随机森林、深度神经网络等）确实更能提升对生物活性数据的分类性能，且由于数据的多样性，模型在生物活性预测问题中也具有一定的普适性；2）验证本文针对特征融合方式进行优化得到的模型——基于多特性融合的注意力图卷积模型，在生物活性预测任务中的性能提升。

2.2.1 基准实验设置

本文使用的基准方法为RF、SVM 及DNN 3 种。针对3 种模型，如表4 所示，设置了超参数列表进行模型调参。同样的，数据集划分选用八折交叉验证法，然后用不同的随机种子执行3 次。这里得到的结果均为3 次运行的平均值，并列出了标准偏差。

2.2.2 EAGAN 与MF_EAGCN 算法的实验设置

在EAGCN 建模时根据分析得到，原子对类型这一属性的权重设置较大时，模型性能会较好，于是在该算法中人工将原子对类型的GCN 层输出通道数设置的偏大，为了更好地学习此特征，做出了人工干涉。在优化的MF_EAGCN 中，会自行关注较高权重的边属性，即可以自适应的学习不同的边属性权重。本文设置的实验参数如表5 所示。

表4 各模型超参数设置

表5 EAGCN 与MF_EAGCN 模型超参数设置

2.2.3 评价指标

本文使用两种评价指标：准确率（accuracy,ACC）和平衡F1 分数（balancedscore, F1-score）。

其中准确率（ACC）是分类预测中较为常用的评价指标：

式中，TP、TN 分别为被正确地划分为正例、负例的个数；P、N为实际样本中正例、负例的个数。总的来说，ACC 就是被分对的样本数占所有的样本数的比例，ACC 指标值越高，分类器性能越好。

平衡F 分数F1-score 也是生物活性分类任务中常用来衡量模型精确度的指标：

F1-score 同时考虑到了模型的精确率（precision）和召回率（recall），只有在两个值都高时，F1 的值才会更高，模型性能越好。其中，precision 与recall 的计算公式如下：

式中，FP、FN 分别表示被错误的划分为正例、负例的个数。

2.3 算法性能分析

表6 显示了在几种数据集上，不同基准模型的ACC、F1-score 指标结果。

从实验结果可以看出，在这些数据集中，基于图卷积的EAGCN 展现出了比传统机器学习方法更好的分类性能，其ACC 指标均比基准学习模型高出2%～8%，F1-score 指标比基准学习模型高出1%～5%。可见直接从分子图学习而不是从预先计算的特性中获得的信息使得模型性能更优。少部分数据集中，DNN 的性能能与EAGCN 方法性能基本持平或稍微高于其性能，RF 的性能有时可以与EAGCN 持平。可见，EAGCN 的性能还有很多优化空间。而基于多特性融合的MF_EAGCN 模型，展现出了更好的分类性能，这也证实了多特性融合方案能够更充分地利用边属性信息进行特征提取，使得模型预测性能提升。其ACC 指标均比EAGCN算法高出1%～2%，F1-score 指标比EAGCN 模型高出约1%。

表6 在7 种数据集中本文算法和EAGCN 及3 种基准方法的预测结果

图3 和图4 分别展示了本文提出的MF_EAGCN、基准算法EAGCN 以及传统机器学习方法5 种分类器，分别应用于7 种生物活性数据集中的ACC 指标和F1-score 指标分布对比，柱状图的条目从左到右依次是RF、SVM、DNN、EAGCN 和MF_EAGCN模型。在ACC 指标分布图中，可以看到数据集1851（2d6）在EAGCN 模型上的效果并不显著，其原因可能是由于数据量相比较而言更大，在模型融合特征阶段对特征重要度分配不均，导致对重要信息的忽略，进而致使模型预测性能降低。而本文提出的MF_EAGCN 模型很好地缓解了此问题，相较于EAGCN，其预测性能提升了2 个百分点，而相较于基准机器学习模型，其预测性能提升了8 个百分点，由此也验证了本文算法的有效性。

图3 用于表现7 种生物活性数据集在5 种分类器中性能的ACC 指标分布

图4 用于表现7 种生物活性数据集在5 种分类器中性能的F1-score 指标分布

3 结束语

本文提出了基于自注意力机制的多特性融合方案，针对基于边注意机制的图卷积网络模型进行了有效优化。本文将一种基于边注意力的图卷积网络架构，应用于文中选用的不同种类的生物活性预测任务，从而避免了人工特征工程带来的误差，并对比几种机器学习基准算法，验证了本人算法有效性。在此基础上，针对前人提出的模型中存在的问题：无法自适应设置边属性特征权重，本文提出了分子多特性融合的方案优化了算法模型的特征提取能力，通过自注意力机制针对多个特征进行自适应融合，有效地解决了这一问题，并且获得了更好的预测性能。本文使用的数据集偏向数据量较小的数据集，未来会将其扩展到数据量更大的数据集以及其他生物活性预测任务上。在应用于较大数据集时，模型可以针对性地对不同任务作出优化，可以提高模型的泛化性能，提升模型稳定性。