
2024年诺贝尔化学奖授予了在蛋白质结构设计领域作出开创性贡献的美国科学家戴维·贝克,以及在蛋白质结构预测方面作出突出贡献的英国科学家杰米斯·哈萨比斯和美国科学家约翰·江珀。他们的研究极大地促进了人类对蛋白质的理解和认识,为生物学研究带来了革命性的变化,推动生命科学进入了一个崭新的时代。
《科学画报》编辑部
文/邓元慧 王国强
邓元慧,中国科协创新战略研究院副研究员。
王国强,中国科协创新战略研究院研究员。
18世纪以前,人们就已在生活实践中发现有一种“类胶质”的“动物物质”——在加热时,它们会变成坚硬的角状物质;在潮湿、温暖的环境中则腐烂变臭,产生碱性的挥发物。这些特征与在潮湿、温暖的储藏环境中会产生酸性物质的淀粉、糖类以及多数的植物体有着天壤之别。
18世纪的一些发现揭开了蒙在这个问题上的面纱一角。1728年,意大利学者雅各布·贝卡里将和好的生面团在水中揉搓清洗,除去细小的白色淀粉颗粒,获得了有黏性的面筋团。他认为,面筋具有“动物物质”的全部特性,才使小麦富有营养。事实上,中国人早已发现面筋这种物质,但遗憾的是我们并没有对其进行深入的研究。
1785年,法国化学家安托万·富克鲁瓦发现,人类和动物的肌肉纤维都含有一种化学性质与凝固血液中的纤维物质相似的物质。1838年,荷兰化学家赫拉尔杜斯·米尔德将白蛋白、纤维蛋白、酪蛋白等暴露于多种化学试剂的作用下,获得了它们的氧化、氯化、硝化等产物。他发表论文《动物物质的组成》指出,所有蛋白质都由碳、氢、氮和氧的自由基化合物(蛋白质)以及不同数量的硫和磷组成。因此,用一个含有碳、氢、氧、氮的化学式作为它们的通式,再加上不同数量的含硫或含磷基团,就可以表示这种类型的不同化合物。他提出,动物通过食用植物就可以获取大部分蛋白质。在瑞典著名化学家约恩斯·贝尔塞柳斯的建议下,米尔德第一次使用了“蛋白质”(法语proteine,源于希腊词汇proteios,意为“第一位的”)一词,将其作为生命系统中最重要的物质。

荷兰化学家赫拉尔杜斯·米尔德
1902年,德国化学家赫尔曼·费歇尔与弗朗茨·霍夫迈斯特几乎同时提出了多肽结构学说,即“相同或不同种类的氨基酸通过肽键相连形成了多肽链,一条或多条多肽链组成了蛋白质”的设想,并进行了验证。我们可以将蛋白质想象成一条由氨基酸串成的项链,每一种蛋白质项链的串珠都有它独特的排列方式,有的长、有的短,且不同的排列和链接方式会使项链具有不一样的三维形状,或弯曲,或扭转,或折叠。1907年,费歇尔还尝试使用光反应合成了18肽的长链,这个肽链虽然只含有15个甘氨酸和3个亮氨酸,却是蛋白质肽键结构理论的一个初步证明,为后人开展蛋白质结构的研究奠定了方法基础。
然而,关于“蛋白质是大分子”的理论确立并非一帆风顺。受胶体化学理论的影响,化学家错误地将蛋白质视为胶体,而非具有特定结构的分子,这种误解影响了初步形成的蛋白质结构理论的发展。1922年,德国高分子化学家赫尔曼·施陶丁格在天然橡胶中发现了存在高分子长链的直接证据,提出了高分子是由长链大分子构成的观点,动摇了传统的胶体理论,并将大分子的概念引入生物化学。1925年,瑞典化学家特奥多尔·斯韦德贝里研制出超速离心机,用于蛋白质和胶体研究,并第一次测定了蛋白质的分子量。此后,蛋白质是由多种氨基酸连接成的大分子和多肽结构理论逐渐被科学界认可。

德国高分子化学家赫尔曼·施陶丁格
随着蛋白质大分子结构的确立以及分析手段的不断演进,到20世纪50年代蛋白质的结构已基本得到阐明。1931年,中国生物化学家吴宪从研究蛋白质的变性出发,提出蛋白质变性是由于天然蛋白质中紧紧盘绕的肽链展开,使内部结构瓦解所致。这一结论曾得到国际生化学界的广泛承认。然而,关于蛋白质如何维持其天然构象的化学机制,仍是未解之谜。1936年,美国化学家艾尔弗雷德·米尔斯基与莱纳斯·鲍林等人共同揭示了蛋白质大分子结构中除了强有力的肽键之外,还存在着一种较弱的氢键,且正是这种氢键,在维持长肽链稳定构象方面发挥着关键作用。一旦氢键遭到破坏,蛋白质就会发生变性。1950年,鲍林与合作伙伴罗伯特·科里进一步阐释了氢键如何使蛋白质大分子的整体外观呈现螺旋状结构。这些发现深化了我们对蛋白质结构的认识,为蛋白质结构的研究开辟了新天地。

英国生物化学家弗雷德里克·桑格
电泳法、色层析法、纸层析法等的发明,为科学家分离、提纯和鉴定蛋白质中的氨基酸奠定了基础。1955年,英国生物化学家弗雷德里克·桑格应用纸层析法、电泳法等首次完整地测定了胰岛素的氨基酸序列,同时证明蛋白质具有明确构造,为准确了解蛋白质的结构及其与蛋白质功能之间的关系、研究蛋白质的人工合成和蛋白质的生物合成奠定了基础。20世纪50年代末,英国生物学家约翰·肯德鲁和马克斯·佩鲁茨将蛋白质培育成晶体,用X射线轰击它们,并测量射线的弯曲情况。通过这种方法,他们确定了血红蛋白和肌红蛋白的三维结构,展示了第一个蛋白质的三维模型。这种技术被称为X射线晶体学。随着这一方法的不断改进,特别是与计算机相结合后,蛋白质的晶体结构分析速度逐渐加快,分辨率也越来越高,一些蛋白质的氨基酸顺序和立体结构相继得到了阐明,为科学家能在蛋白质大分子的一级结构,甚至三级结构的基础上研究结构和功能的关系提供了支撑。

英国生物学家约翰·肯德鲁(左)和马克斯·佩鲁茨(右)
虽然科学家早已用经典的有机化学的缩合方法合成多肽,但这仅限于很简单的氨基酸缩合,还不能合成出天然蛋白质。随着20世纪50年代蛋白质大分子中氨基酸的测序技术的突破,用化学方法合成天然蛋白质成为科学家新的重要研究方向,胰岛素的人工合成成为各国科学家争相突破的重要问题。中国的科学家花了7年多的时间实现了这一重大突破。同期,美国生物化学家罗伯特·梅里菲尔德建立了多肽固相合成技术,这一技术与传统制造多肽方法相比更加简便、高效,成为多肽合成的基本方法。他还研制了第一台自动化合成仪,大大提升了蛋白质合成的效率。

中国科学家首次合成人工牛胰岛素
时至今日,我们早已认识到蛋白质在生命体中发挥着核心作用,参与了几乎所有生物体内的生化过程。但是,蛋白质是如何从一维的氨基酸链折叠成三维的空间结构的?已发现的这些蛋白质又是如何在机体中发挥作用的?我们是否能设计创造出自然界中没有的蛋白质?
20世纪50年代末,美国生物化学家克里斯蒂安·安芬森提出了假说:蛋白质的氨基酸序列包含其天然结构的全部信息,而蛋白质的天然结构是其热力学最稳态。人们开始猜想:如果化学家知道蛋白质的氨基酸序列,是否就能够预测出蛋白质的三维结构?这就是我们常说的蛋白质折叠问题。直到2005年,蛋白质折叠问题仍被《科学》杂志列为125个未解决的科学问题之一,蛋白质对人类来说依旧“读之难解其句,思之难释其惑”。
几十年来,科学家不断寻找着解密蛋白质的线索,并建立了蛋白质数据库。从1971年建立时仅有7个蛋白质的结构,到1992年达到了700多个,每一个结构都是科学家耗时多年努力的成果。但是,当实验主义者还在花费大量时间研究蛋白质的物理模型时,计算主义者开始了通过编写程序来探求蛋白质结构的尝试。如何将两种研究方向和思路结合起来,使蛋白质研究既拥有计算主义者的工作速度,又能保证有实验主义者的工作精度呢?为了解决这一问题,1994年,美国马里兰大学细胞生物学和分子遗传学系教授约翰·莫尔特等人举办了结构预测关键评估竞赛,这个竞赛活动每两年开展一次,旨在确定和推进从氨基酸序列建模蛋白质结构的最新技术水平。在活动中,组织者会发布一份已经实验验证过结构但尚未发表的蛋白质氨基酸序列列表。世界各地的计算团队会使用各自的方法来预测这些蛋白质的结构,最后由一个独立的科学家小组对结果进行比较来评选出最佳的技术方法。这个活动迅速成为蛋白质折叠问题计算方法的试验场。
在1998年举办的第三届结构预测关键评估竞赛中,戴维·贝克的算法“罗塞塔”(Rosetta)一鸣惊人。在这个算法中,贝克将蛋白质数据库中的蛋白质打碎成小肽段,并通过随机插入组装的方法,用能量函数判断是否接受每一步,像搭积木一样。虽然这个算法准确率仍有待提升,但贝克认为,既然“罗塞塔”算法的蛋白质构象空间搜索和能量评估已经取得一定成绩,为什么不反其道而行之?从结构出发,设计蛋白质,再计算能折叠成该结构的蛋白质序列。2003年,贝克团队设计出了首个具有全新折叠方式的Top7蛋白,从此开启了计算蛋白质设计的新纪元。自那以来,贝克实验室设计了各种功能、形态各异的蛋白质,从化学催化酶到药物结合蛋白靶点、小分子结合蛋白,再到纳米材料等。蛋白质设计成为蛋白质研究的重要方向。

首个具有全新折叠方式的Top7蛋白
在此过程中,人工智能逐渐崭露头角。2016年3月,当人工智能公司DeepMind的联合创始人哈萨比斯见证了“阿尔法围棋”(AlphaGo)击败人类围棋世界冠军后,他回想起了自己在大学时挑战由贝克设计的蛋白质折叠游戏Foldit的情景。他大胆设想了可以让人工智能参与到蛋白质折叠问题的解析中。2017年,江珀加入DeepMind,与哈萨比斯等人一起开始了人工智能蛋白质结构预测模型的研究。2020年,他们开发的“阿尔法折叠2”(AlphaFold 2)大获成功。这个模型能够根据蛋白质的氨基酸序列预测其复杂的3D结构,并且达到了原子级精度,解决了困扰人类50年的蛋白质折叠难题。
尽管“阿尔法折叠2”的预测并不能说是完美无瑕,但它极大地提升了蛋白质结构解析的速度,并打破了结构生物学原本的研究范式。2021年,“阿尔法折叠2”完成了人类所有蛋白质的结构预测。2022年7月,“阿尔法折叠2”为蛋白质数据库提供了2亿多种蛋白质的预测结构。最新推出的“阿尔法折叠3”(AlphaFold 3)已不仅仅是单纯地对简单蛋白质结构进行预测,它可以高准确度和高精度预测蛋白质复合物、蛋白质-核酸、蛋白质与小分子配体等三维结构。
通过蛋白质研究探寻生命的密码,仿佛是在崇山峻岭间攀缘,以摘取那颗照亮生命科学奥秘的璀璨明珠,是人类百年来的宏伟梦想。在人工智能的助力下,科学家正以前所未有的速度和精确度,让梦想成为现实。人工智能不仅深化了我们对生命科学的认知,更为生物学、医学等多个领域开辟了新的研究和发展路径,带来了新的科学发现和技术创新的契机,更预示了未来无限的可能。
点击图片订阅
2025年《科学画报》