在 TensorFlow 2 中优化肽
2020 年 8 月 19 日
来自麻省理工学院的 Somesh MohapatraRafael Gómez-Bombarelli 的客座文章

简介

聚合物是一种由长链重复的分子组成的材料,如塑料或橡胶。聚合物由化学键合在一起的亚基(单体)组成。单体的化学组成和排列决定了聚合物的性质。日常生活中一些聚合物例子包括水瓶、不粘特氟龙涂层和粘合剂。
图 1. 从概念上讲,您可以将 Peptimizer 视为生成一系列氨基酸,然后预测肽的特性,最后优化序列。
肽是由氨基酸组成的短聚合物链,类似于由字母组成的词语。它们广泛用于治疗应用,例如通过细胞穿透肽进行基因治疗的递送。由于其模块化的化学性质适合于自动化合成和广阔的设计空间,肽越来越受到青睐,取代了更传统的难于合成的其他小分子药物。然而,巨大的序列空间(就氨基酸排列而言)阻碍了功能性肽的设计。

除了功能优化之外,合成可及性也是一项挑战。具有精确单体排列的肽和其他功能性聚合物是使用流动化学等方法合成的。合成涉及将单体逐个添加到不断增长的聚合物链中。此过程需要每一步都具有高反应产率,从而使得合成更长的链成为挑战。

在实验室环境中优化功能性聚合物(如肽)的传统方法涉及通过反复试验来探索化学空间。然而,可能的聚合物数量随着 mn 指数增长,其中 m 是可能的单体数量,n 是聚合物长度。

作为在实验室中进行实验的替代方案,您可以使用机器学习设计功能性聚合物。在我们关于优化 细胞穿透活性合成可及性 的工作中,我们使用 Peptimizer(一个基于 TensorFlow 的机器学习框架)来设计肽。从概念上讲,您可以将 Peptimizer 视为生成一系列氨基酸,然后预测肽的特性,最后优化序列。

Peptimizer 可用于优化聚合物的功能(除了细胞穿透活性之外)和合成可及性。我们使用单体(氨基酸)的拓扑表示和聚合物链(肽序列)的矩阵表示来开发可解释的(将性质的增益归因于特定单体和/或化学亚结构)机器学习模型。表示和模型架构的选择使得能够通过使用基于梯度的属性方法来推断生化设计原理,例如单体组成、序列长度或聚合物的净电荷。

将机器学习应用于推动功能性肽设计的主要挑战包括数据集大小有限(通常少于 100 个数据点)、选择有效的表示以及解释和理解模型的能力。

在这里,我们使用从实验合作者那里获得的肽数据集来演示代码库的实用性。

功能优化

基于我们关于设计新型高效细胞穿透肽的 工作,我们提出了一个用于发现功能性聚合物的框架(图 1)。该框架包含一个循环神经网络生成器、一个卷积神经网络预测器和一个遗传算法优化器。

生成器使用教师强迫法在肽序列数据集上进行训练,并能够对与训练数据集中序列相似的序列进行采样。预测器在序列的矩阵表示和实验确定的生物活性上进行训练。优化器使用生成器生成的序列进行播种。它通过评估包含预测的活性和其他参数(例如长度和精氨酸含量)的目标函数来进行优化。结果是一系列具有高预测活性的优化序列,这些序列可以在湿实验中进行验证。

教程笔记本 可以访问这些组件中的每一个,并在自定义数据集上进行训练。各个组件的脚本以模块化方式设计,可以轻松地进行修改。

合成可及性优化

除了功能优化之外,Peptimizer 允许优化 合成可及性 野生型序列(图 2)。该框架包含一个多模态卷积神经网络预测器和一个蛮力优化器。预测器在实验合成参数上进行训练,例如预合成链、输入单体、温度、流速和催化剂。优化器评估野生型序列的单点突变以获得更高的理论产率。

为合成可及性优化选择蛮力优化器是基于野生型序列变体的线性增长序列空间(m x n)。与功能优化中遇到的指数增长序列空间(mn)相比,此序列空间相对较小。

此框架可以针对其他具有在线监测的逐步化学反应平台进行调整,方法是指定不同的输入和输出变量以及各自的数据类型。可以使用 教程笔记本 访问它。
图 2. 合成可及性优化概述。

模型的可解释性

Peptimizer 的一个关键功能是基于梯度的属性,用于解释模型预测(图 3)。取预测活性的梯度和输入序列表示,我们可视化每个输入特征的正激活和负激活。对应于积极促进活性的亚结构的指纹索引在热图中具有更高的激活。沿拓扑指纹轴对该激活热图进行平均,以找到对预测的活性积极/消极贡献的关键亚结构或化学基序。对单体位置轴进行平均,我们获得了每个单体对聚合物预测功能的相对贡献。这些可视化提供了对序列-活性关系的深入见解,并补充了对生化设计原理的当代理解。
图 3.(左)正梯度激活热图,以及(右)功能性肽序列的激活化学亚结构。

展望

使用 Peptimizer 优化功能性聚合物可以为实验策略提供信息,并导致在时间和成本方面节省大量资金。我们相信,教程笔记本将帮助化学、材料科学以及更广泛的序列设计领域的实验室科学家在自定义数据集(例如 Khazana)上运行机器学习模型。此外,属性方法将提供对高维序列-活性关系的见解,并阐明设计原理。

实验合作

这项工作是与 Bradley Pentelute 实验室(麻省理工学院化学系)合作完成的。功能和合成可及性优化的合作者分别是 Carly Schissel 和 Nina Hartrampf 博士。感谢他们提供数据集、实验验证以及在模型开发过程中的讨论。

鸣谢

我们要感谢 Google 的 Thiru Palanisamy 和 Josh Gordon 在博客文章合作以及提供积极反馈方面的帮助。
下一篇文章
Optimizing Peptides in TensorFlow 2

来自麻省理工学院的 Somesh MohapatraRafael Gómez-Bombarelli 的客座文章
简介聚合物是一种由长链重复的分子组成的材料,如塑料或橡胶。聚合物由化学键合在一起的亚基(单体)组成。单体的化学组成和排列决定了聚合物的性质。日常生活中一些聚合物例子包括水瓶、不粘特氟龙涂层和粘合剂。…