让AlphaFold的力量为全世界所用

2021-02-13 12:54德米斯哈萨比斯
世界科学 2021年9期
关键词:蛋白质领域数据库

德米斯•哈萨比斯

2020年12月,我们向世界介绍AlphaFold 2及其在预测蛋白质结构方面的超凡能力。当时,评估者认为这是解决困扰科学界50年的重大问题——解析蛋白质三维结构——的最佳工具。2021年7月,我们在《自然》(Nature)刊载了两篇论文,发布了AlphaFold的开源代码,解释这个高度创新的体系是怎么来的;同时,我们还分享包括人体中存在的每一种蛋白质以及常用于科学研究的20种生物体的蛋白质的高质量预测。

科学家试图寻找各类疾病的治疗方法,也希望解决人类面临的其他重大问题,包括抗生素耐药性、微塑料污染和气候变化。如果能有对蛋白质结构的更深入理解,研究工作无疑会因此获益。蛋白质就像小巧精致的生物机器,而机器的结构决定了它的功能,因此揭示蛋白质的结构可以帮助我们理解蛋白质的功能。

AI是支持研究人员工作的强大工具,而我们相信AlphaFold是迄今为止人工智能领域提供的最强科学辅助。通过实验确定蛋白质结构是一项耗时且艰苦的工作,但AlphaFold却证明人工智能可以在几分钟内以原子级精度预测蛋白质的形状。借助AlphaFold收获对蛋白质的更深见解,为我们在生物学和医学领域取得更多新突破奠定了基础。

此次突破得益于AlphaFold团队五年来不知疲倦的探索和惊人的创造力——他们创造性地解决了大量极具难度的问题,得到了许多新的复杂算法,这些都是攻克终极难关所必需的;还得益于过去几个月与我们在一起的欧洲生物信息研究所(EMBL-EBI)的密切合作,我们现在才能与世界共享这宝藏。

不久前我们还与EMBL-EBI合作推出了AlphaFold蛋白质结构数据库,提供迄今为止最完整且准确的人类蛋白质组的结构图——数量是此前人类已积累的两倍还多。除了人类蛋白质组(人类基因组表达的蛋白质共约2万种)之外,我们还提供其他20种生物的蛋白质组,总计超过35万种蛋白质结构的数据访问权限。从大肠杆菌到酵母菌,从果蝇到小鼠,这20种生物极具科研意义,是无数研究论文的主题和众多科学进展的主角。我们计划之后将数据库的覆盖范围扩大至几乎所有已知蛋白质——超过1亿个结构,涵盖UniProt蛋白质数据库的大部分内容。这是一本名副其实的世界蛋白质年鉴。未来我们将继续投入对AlphaFold的改进,系统和数据库也会定期更新。

最令人激动的是,这本全新的蛋白质年鉴能在世界各地的科学家手中发挥神奇力量,推动相关研究,提升人类对蛋白质的理解。通过早期合作,我们已经看到了研究人员在自己的工作中利用好AlphaFold的可能。而这些只是结构生物信息学革命的开始。随着AlphaFold的发展,现有大量数据有望转变为未来的科学进步。

AlphaFold的成功建立在几代科学家的努力之上,从蛋白质成像和晶体学领域的早期先驱,到蛋白质结构预测专家和结构生物学家,众多研究者很早就开始投入到相关探索中,并留下大量实验结果,为此项创新奠定了基础。

我们认为人工智能可以大幅加速许多科学领域的突破,进而推动人类进步。我们相信AI有望彻底改变21世纪的科研方式,也热切期待着AlphaFold帮助科学界解锁下一个神奇。

猜你喜欢
蛋白质领域数据库
蛋白质自由
人工智能与蛋白质结构
2020 IT领域大事记
领域·对峙
数据库
数据库
数据库
数据库
新常态下推动多层次多领域依法治理初探
肯定与质疑:“慕课”在基础教育领域的应用