基于深度学习理论的药物先导化合物自主感知及优化策略研究

2023-08-29 11:38许小青王炜祺

科技创新与应用 2023年22期

罗佳，许小青，王炜祺，张威

（江苏卫生健康职业学院药学院，南京 211800）

新药研发长期受研发周期长、资金耗费巨大、成果回报率低等因素的困扰，世界主流药企一直都在努力尝试通过技术创新来加快新药研发速度，提高成功率和降低成本，以期能更好地满足日益增长的用药需求。随着以深度学习为代表的人工智能技术的蓬勃发展，在新药研发产业链中交叉引入人工智能理论成为了当下的研究热点，新药研发产业链具有高度密集的可用数据集[1]，深度学习理论具有强大的密集数据集隐性特征自感知属性，为人工智能在新药研发领域的应用提供了先天优势。深度学习理论可以应用于新药研发的各个阶段，在药物发现及临床前研究阶段[2]，主要应用在靶点发现、先导化合物筛选等，在临床试验阶段主要应用在制剂研发、试验优化等，在审批上市阶段，主要应用在产品优化与学术推广等。深度学习理论不仅能够挖掘出不易被发现的隐性关系，构建药物、疾病和基因之间的深层次关系，同时，可对候选化合物进行虚拟筛选，更快地筛选出具有较高活性的化合物，为后期临床试验做准备。

1 国内外研究现状

基于人工智能和大数据的精准药物设计技术开发目前已经逐渐成为学术界的研究热点，国内外诸多新药研发领域的专家学者进行了大量工作并取得了丰硕成果，具有较大影响且代表人工智能药物研发领域最新研究现状的学术成果介绍如下。2018 年7 月，来自美国北卡罗来纳大学药物分子模拟实验室的Alexander 等[3]在Science Advances 等人杂志上发文，系统阐述了利用深度强化学习方法从头设计特定药物活性的分子的技术路线及可行性，给出了一种用于从头设计具有所需特性的分子的新型计算策略，称为ReLeaSE（结构演化的增强学习）并完成了仿真验证[4]；2019 年9月，药物研发人工智能公司Insilico Medicine 与药明康德联合在Nature Biotechnology 报道了基于人工智能设计DDR1 抑制剂的成功案例，从靶点选择到活性分子筛选和验证，总时长耗费46 d，信息收集及数据整理7 d，建立深度学习模型12 d，优化2 d，合成及动物实验25 d。2019 年12 月，来自瑞士苏黎世联邦理工大学的Jose 等[5]在Nature 杂志上发文，详细阐述了人工智能在活性小分子药物发现中的重要作用，明确指出深度学习算法优化和机器学习领域之间的交叉可能会导致药物研发领域更快的发展；2020 年1 月，来自中科院上海药物研究所的Yang 等[6]在Journal of Medicinal Chemistry（JMC）杂志上发文，通过深度学习技术发现P300/CBP 组蛋白乙酰转移酶先导化合物，然后通过结构改造发现活性最强的抑制剂，可作为潜在的临床开发候选药物进行广泛的临床前研究。

2 存在的主要问题

虽然基于人工智能和大数据的精准药物设计技术开发已经取得了令人瞩目的成绩，但是在学术研究、技术革新、落地产业化等层面还存在诸多问题，很大程度上制约了人工智能理论在新药研发领域真正的落地开花，结合基于人工智能和大数据的精准药物设计技术在国内外的最新研究现状，从技术壁垒、研发理念、产业化布局等角度简单总结当前人工智能药物研发领域存在的主要问题。

1）技术壁垒角度：人工智能理论发挥效能的催化剂是格式一致的有效密集数据集，但目前国内外主流药企具有很强的封闭性，新药研发涉及到数据集大多作为商业秘密，导致训练数据集格式多样且共享性较差，为基于人工智能理论构建统一规范的药物研发隐性规律感知机制造成了困境。

2）研发理念角度：虽然国内外主流药企均已积极布局人工智能药物研发领域的研究，由于长期受传统药物研发理念的束缚，国内外主流药企仍然把传统药物研发作为重点布局对象，对基于人工智能和大数据的精准药物设计技术开发仍持观望态度，在资金投入、政策扶持、人才引进等方面存在壁垒。

3）产业化布局角度：人工智能药物研发领域的核心成果目前大多局限于学术领域，成果适用范围往往局限在理想环境下的药物实验室，真正意义上的新药成果极少。截至目前，还没有一款人工智能药物研发产品批准上市，因此，在大部分初创企业需要面对产出成果不足或者不优而导致财务状况堪忧的现状下，企业需要合理地定位产业链角色，选择适合的创新商业模式进行产业化布局，人工智能药物研发的初创企业要积极跟学术界和产业龙头合作，获得优质数据是立足之本。

3 拟解决的关键问题

基于深度学习理论的药物先导化合物自主感知及优化策略研究整体的目标是开发一种先验活性需求下的面向数以百万计的小分子化合物最优组合的人工智能算法，实现具有某种生物活性和特定化学结构的先导化合物自主感知及优化策略生成。基于深度学习理论的药物先导化合物自主感知及优化策略研究拟解决的关键问题包括分子结构字符化、特征自主提取及感知、分子结构优化策略生成等[7]。其中，分子结构字符化主要实现二维或者三维分子模型的字符化，便于人工智能算法进行精准特征的提取与学习；特征自主提取及感知主要对以SMILES 字符串形式表达的分子库进行特征提取与学习，完成深度可分离卷积神经网络的预训练，以生成化学结构合理的SMILES 字符串，并使用预测模型来预测生成的化合物相关属性；分子结构优化策略生成主要实现对自主生成的SMILES 字符串表达形式的分子结构进行优化扩展，优化扩展的依据可以是模型新学习到的经验，也可以是目前已经报道及具有潜在活性的先验先导化合物。

基于深度学习理论的药物先导化合物自主感知及优化策略研究整体涉及分子结构字符化子模型、特征自主感知子模型、分子优化策略生成子模型3 个子模型。其中，分子结构字符化子模型采用长短期记忆人工神经网络算法（LSTM）对ChEMBL 数据库中的150 万个分子进行特征训练，选择SMILES 作为分子表现形式，以此训练分子结构字符化子模型，使其学习自主生成SMILES 字符串的规则，以便生成合理的SMILES 字符串；特征自主感知子模型利用深度可分离卷积神经网络算法（DSC）对ChEMBL 数据库中所有人源蛋白靶标的活性小分子进行迭代预训练，构建先导化合物活性与结构之间的物理映射关系，实现先导化合物活性与结构之间隐性知识的自主感知，利用特征自主感知子模型对分子结构字符化子模型生成的SMILES 字符串进行活性预测，筛选符合特定活性的化合物库；分子优化策略生成子模型利用深度循环神经网络算法（RNN）实现分子优化策略的自主生成，使用SMILES 字符串作为输入向量来计算分子的相关属性，并基于学习到的新经验（目前已经报道及具有潜在活性的先验先导化合物对模型等）对自主感知子模型预测的SMILES字符串进行活性优化。

为了实现先导化合物自主感知及优化策略生成，针对模型分子结构字符化子模型，利用基于RDKit 的Python 脚本实现分子结构SDF 格式与SMILES 格式的相互转换，利用特定编辑软件还原成二维图形或分子的三维模型；针对模型自主感知子模型，利用ChEMBL数据库中所有人源蛋白靶标的活性小分子对深度可分离卷积神经网络进行迭代预训练，构建先导化合物活性与结构之间的物理映射关系，实现先导化合物活性与结构之间隐性知识的自主感知，初步实现自主生成特定先验活性的先导化合物；针对模型优化策略生成子模型，提供具有良好人机交互的扩展API 接口，利用目前已经报道及具有潜在活性的先验先导化合物对模型进行优化调整，为进一步获得可用于合成及后续生物活性实验的性质较好先导化合物，通过若干特定规则对生成的先导化合物库进行排序和筛选。模型设计完成并经过系统性整合后，完成已知小分子活性环境下的效能仿真验证。

4 研究方法及技术路线

聚焦基于深度学习理论的药物先导化合物自主感知及优化策略研究拟解决的关键问题针对开展研究过程中各个子阶段的特点，采用差异化研究方法，以研究目标及拟解决的关键问题为导向，针对基于深度学习理论的药物先导化合物自主感知及优化策略研究整体涉及的3 个子模型分别采用贴切的研究方法，简述如下。针对分子结构字符化子模型采用数学建模、软件编程实现的研究方法，具体利用长短期记忆人工神经网络算法（LSTM）对ChEMBL 数据库中的150 万个分子进行模型训练，实现有效分子结构的的自主生成；针对特征自主感知子模型采用数学建模、软件编程实现、仿真验证的研究方法，具体利用深度可分离卷积神经网络算法（DSC）对ChEMBL 数据库中所有人源蛋白靶标的活性小分子进行迭代预训练，实现对分子结构字符化子模型生成的SMILES 字符串进行活性预测；针对分子优化策略生成子模型采用数学建模、软件编程实现、仿真验证、试验验证的研究方法，利用深度循环神经网络算法（RNN）实现分子活性优化策略的自主生成，进一步获得可用于合成及后续生物活性试验的性质较好的先导化合物。

针对基于深度学习理论的药物先导化合物自主感知及优化策略研究3 项拟解决的关键问题分别给出便于计算机仿真及试验验证的具体技术路线。针对拟解决的关键问题一，选取ChEMBL 数据库中的大约150万个类药分子作为分子结构训练数据源，利用基于RDKit 的Python 脚本实现分子结构SDF 格式与SMILES 格式的相互转换，利用特定编辑软件还原成二维图形或分子的三维模型[8]，实现分子结构训练数据源转换为SMILES 字符串分子表现形式，利用SMILES 字符串分子表现形式对长短期记忆人工神经网络算法（LSTM）进行迭代训练，其中，长短期记忆人工神经网络算法（LSTM）采用多维网络结构，包含4 个LSTM层、2 个Dropout 层、2 个TimeDistributed 层和1 用于激活过程的Softmax 函数；针对拟解决的关键问题二，对ChEMBL 数据库中所有人源蛋白靶标的活性小分子对深度可分离卷积神经网络算法（DSC）进行深度预训练，构建先导化合物活性与结构之间的物理映射关系，对分子结构字符化子模型生成的SMILES 字符串进行活性预测，其中深度可分离卷积神经网络算法（DSC）属于深层神经网络结构，其由一个扩展嵌入层、2 个可分离卷积层和2 个密集层组成，该网络利用SMILES字符串作为输入向量来预测分子的相关活性；针对拟解决的关键问题三，采用目前最新报道及具有潜在活性的先验先导化合物对深度循环神经网络算法（RNN）进行循环训练，向DSC 网络添加额外的权重，保证在DSC 网络始终可以循环获取最新经验，实现分子活性优化策略的自主生成，进一步获得可用于合成及后续生物活性试验的性质较好的先导化合物。

5 结束语

聚焦以深度学习为代表的人工智能技术在新药研发领域的广阔应用前景，选择药物早期发现阶段的先导化合物发现及结构优化为切入点，开展了基于深度学习理论的药物先导化合物自主感知及优化策略研究。分析了基于人工智能和大数据的精准药物设计技术在国内外的最新研究现状及发展趋势，从技术壁垒、研发理念、产业化布局等角度简单总结了当前人工智能药物研发领域存在的主要问题，总结了基于深度学习理论的药物先导化合物自主感知及优化策略研究分子结构字符化、特征自主提取及感知、分子结构优化策略生成3 个拟解决的关键问题。与基于深度学习理论的药物先导化合物自主感知及优化策略研究拟解决的关键问题相对应，设计了分子结构字符化子模型、特征自主感知子模型、分子优化策略生成3 个子模型，在此基础上，给出了详细科学的研究方法及技术路线，为人工智能药物研发领域提供系统性研究案例借鉴。