由谷歌人工智能研究实验室DeepMind开发的人工智能(AI)网络在解决生物学最大的挑战之一——根据蛋白质的氨基酸序列确定其3D形状方面取得了巨大飞跃。该公司与其他著名科学家合作,利用人工智能创建了迄今为止最全面的人类蛋白质图谱,并免费发布数据。
蛋白质是生命的组成部分。了解它的结构可以帮助科学家完成各种各样的任务。例如,这些信息可以帮助设计新的药物,合成分解废物的新酶,创造抗病毒或极端天气的作物。
蛋白质结构的研究既费时又费钱;然而,去年,DeepMind使用名为AlphaFold的人工智能软件对蛋白质结构做出了真实的预测。目前,它正在向公众发布数十万个预测。
公司CEO兼联合创始人Demis Hassabis告诉the Verge网站:“我认为这是DeepMind 10年多的人生的顶点。”“从一开始,这就是我们的目标:在人工智能领域取得突破,在围棋和雅达利(Atari)等游戏上进行测试,并将其应用于现实世界的问题,看看我们能否加快科学突破,并利用这些突破造福人类。”
超过35万个蛋白质结构存在于20种不同的生物中,包括老鼠、果蝇等动物和大肠杆菌等细菌。,可透过公共资料库查阅。但研究人员说,到今年年底,这一资源将增长到1.3亿个结构,它可以彻底改变生命科学。例如,人类蛋白质组包含两万多种蛋白质的指令。它是最全面、最准确的人类蛋白质公共数据集。
AlphaFold的技术主管John Jumper说,科学家可以自己下载整个人类蛋白质组。“有一个有效的HumanProteome.zip,我认为它的大小大约是50g,”Jumper告诉The Verge网站。“如果你愿意,你可以把它放在闪存盘上,不过如果没有电脑进行分析,它不会有多大用处!”
在完成第一部分数据后,DeepMind团队开始预测几乎所有已知的人类基因组编码蛋白质的结构。该结构可在英国Hinxton的EMBL-EBI(欧洲分子生物学实验室欧洲生物信息学研究所)维护的数据库中获得。今年年底,DeepMind计划发布对1亿个蛋白质结构的预测,根据EMBL总干事伊迪丝·希尔德(Edith Heard)的说法,这个数据集将“对我们理解生命运作方式产生革命性的影响”。
哈萨比斯说:“这些数据将永远免费提供给科学和商业研究人员。”
“任何人都可以用它做任何事情,”DeepMind首席执行官在新闻发布会上指出。“他们只需要注明引文涉及的人。”
目前,DeepMind的蛋白质预测被用于医学研究目的,包括研究SARS-CoV-2。
然而,将这些信息转化为现实世界的结果需要大量的时间。科罗拉多大学生物化学系教授Marcelo C. Sousa在接受the Verge网站采访时表示:“我不认为它会在一年内改变患者的治疗方式,但它肯定会对科学界产生巨大影响。”
DeepMind高级研究科学家Kathryn Tunyasuvunakool表示,科学家将不得不通过死记硬背来学习这些信息。Tunyasuvunakool告诉The Verge网站说:“作为一名生物学家,我可以肯定的是,我们甚至没有观察2万个结构的剧本,所以这个(数据量)是非常出乎意料的。”“要分析成千上万的结构——这太疯狂了。”
格拉斯哥大学(University of Glasgow)结构生物学教授海伦·瓦尔登(Helen Walden)告诉the Verge网站,DeepMind的工作将“显著缓解”研究瓶颈,但“对药物功能等进行生物化学和生物学评估的费力、消耗资源的工作”将继续下去。
据Sousa说,对科学家来说,这种影响会立即被感受到。他之前使用过AlphaFold的数据。他说:“在我们与DeepMind的合作中,我们有一个数据集,其中有一个蛋白质样本,我们已经有10年了,但我们从来没有发展到开发一个合适的模型的地步。”“DeepMind同意为我们提供一个结构,他们能够在15分钟内解决这个问题,而我们已经在这个问题上坐了10年。”
蛋白质是由氨基酸链构成的,在人体中有20种不同的氨基酸。一个单独的蛋白质由数百个单独的氨基酸组成。蛋白质不能通过显微镜检查;因此,它们的结构是通过核磁共振和x射线晶体学等复杂方法确定的。
仅仅通过氨基酸来确定蛋白质的结构是很困难的;因此,许多科学家称之为生物学的“大挑战”。尽管近年来,人工智能已经使所需的分析成为可能。
多年来,各种团体一直在研究它;然而,最近,DeepMind对人工智能方法的深入了解大大增加了这方面的努力。去年,DeepMind的程序AlphaFold在两年一度的蛋白质结构预测挑战赛CASP(结构预测临界评估)中击败了大约100个其他团队。计算生物学家John Moult是CASP的联合创始人之一,他说:“从某种意义上说,蛋白质折叠的问题已经解决了。”
哈萨比斯说:“我们可以在几分钟内折叠一个普通蛋白质,大多数情况下是几秒钟。”上周,该公司还发布了AlphaFold的底层代码,作为开放源代码,允许其他人在未来进行工作。
雷丁大学(Reading University)教授利亚姆•麦高芬(Liam McGuffin)曾开发过英国一些领先的蛋白质折叠软件,他对AlphaFold的表现表示赞赏,但他也表示,该程序的成功得益于数十年的研究。McGuffin告诉The Verge网站说:“DeepMind拥有大量资源来保持这个数据库的更新,他们比任何一个学术团体都更有能力做到这一点。”“我认为学术界最终会达到这一目标,但会慢一些,因为我们没有足够的资源。”
哈萨比斯告诉The Verge网站,该公司一直计划免费提供这些信息,这是在履行其创始精神。他强调,DeepMind的研究成果在谷歌的各个领域都得到了应用——“几乎所有你使用的东西,我们的一些技术都是其中的一部分”——但该公司的主要目标始终是基础研究。爱游戏ayx体育
哈萨比斯说:“我们被收购时达成的协议是,我们在这里主要是为了提高AGI和AI技术的水平,然后利用它们加速科学突破。”“(Alphabet)有很多部门专注于赚钱,”他补充道。他指出,DeepMind专注于研究“为科学界带来了各种各样的好处,包括声望和善意。因此,有很多方法可以实现价值。”
哈萨比斯预计,AlphaFold将成为未来许多引人注目的研究成果的标志。这个项目将解决与人类生物学有关的模糊问题。
“我认为我们正处于一个非常激动人心的时刻,”他说。“在未来十年,我们和人工智能领域的其他人都希望能取得惊人的突破,真正加速解决我们在地球上面临的真正重大问题。”