在蛋白质设计中,如何生成具有预定义功能和特性的蛋白质结构一直是一个具有挑战性的问题。近日,由多伦多大学的研究人员开发了一种人工智能AI系统,可以使用生成扩散来创建自然界中没有的蛋白质——这与目前流行的AI图像创建平台(如Midjourney、OpenAI等)背后的技术相同。
研究指出,该AI系统将有助于促进生殖生物学领域的发展,通过使全新的治疗蛋白的设计和测试更加有效和灵活,有望加速药物开发。
蛋白质由氨基酸链组成,氨基酸链可以折叠成三维形状,决定蛋白质的功能。这些形状经过数十亿年的进化,变化多端,复杂而且数量有限。现在,随着对现有蛋白质折叠方式的进一步了解,研究人员已经开始利用人工智能原理设计自然界中不会产生的折叠模式。
由于很难预测哪些折叠将是真实的并在蛋白质结构中起作用,研究人员决定通过将基于生物物理学的蛋白质结构表示与图像生成空间的扩散方法相结合来解决这个问题。研究人员称这个新系统为 ProteinSGM,它来自于现有蛋白质的大量图像表示,这些图像准确地编码了蛋白质的结构。
研究人员将这些图像输入到生成扩散模型中,该模型逐渐添加噪声,直到每个图像都变成噪声。该模型跟踪图像如何变得更嘈杂,然后反向运行该过程,学习如何将随机像素转换为对应于全新蛋白质的清晰图像。
优化图像生成过程的早期阶段是创建ProteinSGM的大挑战之一。使用AI系统的关键之一在于蛋白质结构的适当的图像表示,此后扩散模型就可以学习如何准确地生成新的蛋白质。
扩散模型,也被称为基于分数的生成模型(SGMs),在图像合成方面显示出惊人的表现。ProteinSGM是基于图像的蛋白质结构表示开发的生成模型,可以产生真实的从头生成的蛋白质。
为了测试由ProteinSGM生成的新蛋白质,研究人员使用 AlphaFold 2的改进版OmegaFold进行验证。通过 OmegaFold的匹配和实验室的实验测试,研究小组证实,几乎所有的新序列都能折叠成所需的蛋白质结构,也就是说,由AI生成的在自然界任何地方都不存在的全新蛋白质折叠得到了验证。
研究人员认为,基于这项研究,下一步的研究方向则是通过ProteinSGM进行进一步开发具有大治疗潜力的抗体和其他的蛋白质。这将是一个非常令人兴奋的研究和创新领域。