职贝云数AI新零售门户

标题: Nature子刊:加州理工打破!AI大模型设计出超越实验室退化的高活性酶 [打印本页]

作者: BLpt8N 时间: 4 小时前
标题: Nature子刊:加州理工打破!AI大模型设计出超越实验室退化的高活性酶
科研、项目合作：panp6600 (注明来意,清北硕博团队专注于AI for Science自研大模型，接受天使轮投资，欢迎投资者咨询)

————————————

本文内容独家整理，盗用必究

来自全球顶尖学府加州理工学院（Caltech）的研讨团队在《Nature Communications》发表重磅研讨成果，初次展现了基于序列的生成式AI模型可以从零末尾设计出功能完备的酶，并且功能超越自然酶甚至实验室退化数十年的优化成果。这项研讨不只为工业生物催化剂的疾速发现开拓了新途径，更证明了AI在蛋白质工程范畴的创造性潜力。
为什么酶的发现如此困难？

酶作为高效、选择性强且可持续的催化剂，在化学品、燃料、材料和药物的消费中具有宏大运用潜力，是传统化学方法的理想替代品。但是，要使酶满足工业运用的功能要求，往往需求量身定制的优化。定向退化（Directed Evolution, DE）作为一种弱小的策略，经过反复的渐变和挑选来逐渐改进酶的功能，已成功产出了许多工业级生物催化剂。

但定向退化存在一个根本性限制：必需要有一个对目的功能具有可测量活性的起始酶。寻觅这样的起始酶依然次要依赖阅历，目前还没有通用策略。常见的方法是应用酶的催化或底物混杂性（promiscuity）——即酶催化非自然反应或接受非自然底物的才能。这通常从假设能够包容目的转化的酶家族末尾，基于机制或底物相似性，然后构建酶文库，要么经过采样自然序列多样性，要么经过对多数代表性酶创建渐变文库。

但是，这两种方法都面临应战：自然酶能够表达不良或特异性过窄，而渐变只能覆盖有限的序列空间，且常常产生大量无活性变体。整个过程休息密集、耗时长，结果很大程度上取决于运气和可用酶文库的组成。虽然定向退化曾经协助解锁了许多有用的生物催化剂，但许多有前景的转化仍未被探求，而且这一过程的不确定性和持续工夫继续限制着酶作为催化剂的广泛工业运用。

(, 下载次数: 2)

（图1A）传统策略与GenSLM生成策略的对比：传统方法依赖自然酶的固有混杂性，需求大量工夫和实验工作；相比之下，GenSLM生成的文库展现出优秀的表达、波动性、催化活性以及拓宽的底物混杂性
GenSLM如何生成功能性酶？

为了应对寻觅具有希冀功能的新型酶的应战，研讨团队提出运用蛋白质言语模型（Protein Language Models, PLMs）生成可用于目的活性挑选的酶文库。PLM生成的蛋白质相比自然蛋白具有分明优势：它们可以探求远离已知蛋白的序列空间区域，同时允许条件控制或过滤以归入理想特征。

研讨团队选择了GenSLM模型，这是一个最后为基因组规模运用开发的大规模transformer架构。与大多数在氨基酸序列上训练的PLM不同，GenSLM在DNA序列的密码子程度学习。GenSLM直接以延续的核苷酸三联体（64个密码子）表示序列，直接反映从DNA到蛋白质的翻译过程。这种密码子程度的表示不只与分子生物学的中心法则分歧，还使模型可以在学习蛋白质程度效应的同时归入同义交换。

GenSLM在多个参数规模（2500万、2.5亿、25亿和250亿参数）上训练，运用了来自细菌和病毒生物信息学资源中心（BV-BRC）的约1.1亿条原核基因序列数据集。该模型的一个运用是研讨SARS-CoV-2的退化动态，经过在150万个病毒基因组上微调，可以预测变体顺应度、预测新兴谱系并辨认功能相关的渐变。
为何选择色氨酸合酶作为测试案例？

为了评价模型的生成潜力，研讨团队选择了一个机制上具有应战性的酶作为测试案例：色氨酸合酶的β亚基（TrpB）。TrpB是异四聚体色氨酸合酶复合物（TrpS）的一个亚基，长期以来不断是机制酶学的模型系统。

TrpS由两个TrpA和两个TrpB亚基组成，它们共同催化触及至少九个不异化学步骤的多步骤生物合成转化。TrpA产生吲哚，吲哚经过20-25 Å的底物通道传递到TrpB，在那里与L-丝氨酸反应构成L-色氨酸。后一转化需求磷酸吡哆醛（PLP）辅因子和精细调谐的催化残基网络。高效催化依赖于亚基之间和亚基外部的大规模构象动力学，这些动力学调理低活性（开放）和高活性（封闭）形态之间的转换，从而控制底物结合、中间体波动和产物释放。

(, 下载次数: 2)

（图1B）TrpB的催化循环：展现了触及PLP辅因子和多个催化残基的复杂反应机制

TrpB是一个有吸引力的工业生物催化剂，为合成非规范氨基酸提供了高效且可扩展的途径。一个严重打破是创建了PfTrpB-0B2，这是一个独立催化剂，其活性不再依赖于其自然伴侣TrpA。这极大地加强了其可退化性，并为旨在扩展其催化范围的定向退化工作打开了大门。后续的工程活动已成功将TrpB的底物范围扩展到包括吲哚衍生物、吲哚异构体、非吲哚芳香化合物、脂肪族底物和L-丝氨酸衍生物。

工程化的TrpB现已在工业规模上运用：AralezBio（美国加州圣利安德罗）运用退化的TrpB制造色氨酸相似物，默克公司（美国新泽西拉威）在5-氟色氨酸的合成中运用PfTrpB-0B2，这是消费enlicitide decanoate（一种3期临床候选药物）的关键构建块。

(, 下载次数: 2)

（图1C）工程化TrpB在工业中的运用实例：用于合成治疗动脉粥样硬化性心血管疾病的3期临床药物enlicitide decanoate
GenSLM如何微调和挑选TrpB序列？

为了生成TrpB序列，研讨团队采用了2500万参数的GenSLM，并在从BV-BRC获得的trpB DNA序列精选数据集上停止微调，该数据集包含30,000个独特的trpB核苷酸序列，翻译后对应22,800个独特的氨基酸序列。微调遵照了为SARS-CoV-2开发的相反程序，运用相似于SpanBERT中完成的掩码言语建模策略的对比学习目的。

基于已建立的基于序列和结构的标准，生成的蛋白质经过一组最小的过滤器，旨在去除不具前景的序列。虽然最后探求了更多基于物理的过滤器（包括对接和热波动性过滤），但最终没有采用，以避免引入能够与实验结果不相关的成见。相反，过滤管道专注于评价结构和序列残缺性，并促进跨序列空间的多样性和新颖性，从而丰富候选池以停止后续实验验证。

研讨团队组装了一个包含超过57,000个自然TrpB序列的参考数据库，包括用于微调的22,800个序列以及经过查询基因名"trpb"并将序列长度限制为200-600个氨基酸从UniProt检索的额外条目。该数据集既提供了残缺性比较的基线，又提供了过滤的多样性控制。

过滤流程包括以下步骤：

从这个过滤集合中，研讨团队选择了105个代表性序列，分布如下：30个序列具有80-90% MaxID，40个具有70-80%，20个具有60-70%，10个具有50-60%，5个具有40-50%。这种分布有意倾向于较高同一性的序列（通常与更高的活性能够性相关），同时仍保留较低同一性的序列以探求更广泛的序列多样性。

(, 下载次数: 2)

（图2A）t-SNE投影显示GenSLM-TrpB在用于微调的自然TrpB序列空间中分布良好，105个实验测试的生成TrpB覆盖了广泛的序列空间

(, 下载次数: 2)

（图2B）经过Shannon熵量化的序列变异性表明GenSLM-TrpB重现了自然序列形式

(, 下载次数: 2)

（图2C）最保守残基的序列标识显示GenSLM-TrpB保留了关键的催化位点
GenSLM生成的酶功能如何？

研讨团队的首要目的是评价GenSLM-TrpB能否表现出色氨酸合成活性。为此，在大肠杆菌中表达了105个选定的GenSLM-TrpB，并将其功能与几种表征良好的自然和工程TrpB酶停止比较。详细选择了来自不同生物体的自然TrpB：大肠杆菌（EcTrpB）、拟南芥（AtTrpB）、嗜热古菌（PfTrpB）、海栖热袍菌（TmTrpB）和白色链霉菌（SaTrpB）。还包括了实验室退化的独立TrpB——PfTrpB-0B2作为对照。

催化活性在室平和75°C两种温度下评价。选择高温条件是为了婚配PfTrpB-0B2的最适温度，并探测生成的TrpB的热波动性。虽然来自内源性大肠杆菌TrpS的残留活性使得在室温下难以区分低活性GenSLM-TrpB和无功能酶，但11个GenSLM-TrpB显示出分明高于背景的活性。其中9个具有80-90%序列同一性，2个具有70-80%序列同一性与自然TrpB相比。在75°C下，7个GenSLM-TrpB保持了相当大的活性，虽然热波动性不是明白的设计标准（其中5个具有80-90%，2个具有70-80%序列同一性）。

(, 下载次数: 2)

（图3A）按与自然TrpB的序列同一性分组并与PfTrpB-0B2基准比较的色氨酸构成产率的截断小提琴图。室温下反应16小时或75°C下反应1小时后的产率显示多个GenSLM-TrpB达到或超越工程化酶的功能

值得留意的是，几个GenSLM-TrpB表现出与PfTrpB-0B2相当甚至超过的活性程度，而PfTrpB-0B2是专门为75°C下的独犯罪能退化的PfTrpB变体。鉴于野生型TrpB需求其TrpA亚基激活，在没有思索TrpA的状况下生成的GenSLM-TrpB的高活性是值得留意的。这表明该模型可以生成具有通常只能经过广泛的实验室退化才能获得的特性的序列。

其中，编号230的酶尤为突出：其总活性在室平和75°C下均超过PfTrpB-0B2。这一惊人的结果确立了GenSLM设计的TrpB不只可以媲美，甚至可以超越实验室退化的基准酶，突显了这种方法的潜力。

为了更好地表征最有出路的GenSLM-TrpB，研讨团队纯化了11个在室温下表现出活性的酶（1617、2200、2277、2623、3197、3495、3547、3599、3994、230和231），以及1个（1865）在75°C下有活性但在室温下无活性的酶。其中9个TrpB与自然TrpB共享80-90%序列同一性，其他3个共享70-80%。

表达程度一直很高，平均纯化产率为84 mg/L培育物，其中4个酶超过100 mg/L，2个接近200 mg/L。

(, 下载次数: 2)

（图3B）最活跃GenSLM-TrpB的表达程度，以每升培育物分离的纯化蛋白质毫克数报告，显示优秀的表达功能

热波动性评价显示多样化的熔解温度（）：5/12的测试酶表现出高于70°C，6/12在50-70°C范围内，1个约为40°C。许多酶表现出两个熔解转变，第一个在40-50°C之间，这与TrpB二聚体重排相关。

(, 下载次数: 2)

（图3C）最高功能GenSLM-TrpB的熔解温度，经过热荧光测定法测量，显示出广泛的热波动性范围
GenSLM生成的酶底物混杂性如何？

研讨团队假设经过PLM生成的TrpB能够比其自然对应物表现出更广泛的底物混杂性。这一假设源于这样的观察：像TrpB这样的自然酶通常高度特异，阅历了数百万年的退化压力来抑制能够毁坏细胞稳态的混杂活性。PLM生成的（或其他计算设计的）酶能够优化程度较低，本质上更具包容性，能够提供更大的底物灵敏性。

为了研讨这一点，运用裂解液在96深孔格式中挑选了一切105个GenSLM-TrpB对一系列非同源底物的活性。虽然自然色氨酸合酶（TrpS）可以接受取代的吲哚，但活性通常有限，底物范围狭窄。已报道的被自然酶接受的吲哚取代包括卤素和给电子取代基，如甲基、氨基、甲氧基或羟基基团。

为了应战生成的TrpB，研讨团队选择了7个与野生型TrpB反应性差的底物，因此在先前的定向退化研讨中成为目的。这些包括4-NO₂-、5-NO₂-、6-CN-和7-CN-吲哚。萘酚是一种非吲哚化合物，没有报道过任何自然TrpS可以处理。还测试了L-苏氨酸作为替代亲电体，由于自然TrpS对L-丝氨酸表现出严厉的特异性。最后，包括了5-氟吲哚，由于它在工业合成enlicitide decanoate中的相关性，虽然已知自然TrpB可以接受它。

研讨团队将生成的TrpB与专门为不同活性退化的实验室酶停止比较：PfTrpB-0B2（PfTrpB独立）、TmTriple（TmTrpB独立）、Tm9D8（在较低温度下对4-CN-吲哚的活性）、Pf0A9和Pf2A6（对4-NO₂-吲哚和吲哚衍生物的活性）、Pf2B9（与L-苏氨酸的活性）以及TmTyrS6/Tm9D8 E105G（对苯酚/萘酚的活性以制备酪氨酸衍生物）。还包括了来自五个物种的野生型TrpB作为比较。

(, 下载次数: 2)

（图4A）测试的非规范底物结构，包括多种吲哚衍生物、萘酚和L-苏氨酸

(, 下载次数: 2)

（图4B）经过277 nm处的紫外吸收估算的产物产率。产率运用幂律归一化显示（γ = 0.15）。结果表明GenSLM-TrpB在多种底物上显示活性

令人震惊的是，对于测试的每个底物，至少有一个GenSLM-TrpB表现出可测量的活性。特别是，与自然TrpB序列同一性较高（70-80%和80-90%）的GenSLM-TrpB包含的酶与自然TrpB相比表现出更大的混杂性，而实验室退化的TrpB一直表现出高混杂性。

(, 下载次数: 2)

（图4C）每个TrpB接受的底物百分比比较，将GenSLM-TrpB（按序列同一性聚类）与退化和自然TrpB停止比较，显示GenSLM生成的酶具有分明的混杂性

多数GenSLM-TrpB对最具应战性的底物有活性——4-NO₂-吲哚、萘酚和苏氨酸——其中只要230可以持续产生紫外可检测的产物。虽然如此，一些额外的GenSLM-TrpB经过质谱显示出可检测的活性，为定向退化提供了可行的终点。相比之下，对5-NO₂-吲哚、6-CN-吲哚和7-CN-吲哚发现了更广泛的活性酶，许多酶的功能超过了自然TrpB。

对于5-氟吲哚，观察到来自内源性大肠杆菌TrpS的高背景活性。但是，几个GenSLM设计的酶，如230、1617和3599，达到了令人印象深入的产率（分别为99%、97%和60%），分明超过了自然TrpB的功能，几乎达到了PfTrpB-0B2的定量产率，而PfTrpB-0B2正是工业上用于这一准确反应的酶。

其中，230尤为有目共睹；它在一切测试的底物上都表现出可测量的活性，产率从5%到99%不等。这种程度的底物混杂性在自然TrpB中是史无前例的。在37°C下，230在与4-NO₂-吲哚、5-NO₂-吲哚、L-苏氨酸和7-CN-吲哚的反应中婚配或超过了实验室退化酶的功能。3599在整个底物组上表现出可检测的活性，虽然程度低于230。1617对7个测试底物中的6个有活性。

(, 下载次数: 2)

（图4D）两个最具混杂性的GenSLM-TrpB的比较产率，与最具混杂性的自然酶（AtTrpB）、最具混杂性的退化TrpB（Pf2B9）和工业相关的PfTrpB-0B2停止比较，展现了GenSLM-230的杰出功能
GenSLM引入了超越自然序列多样性的功能改进吗？

为了更好地了解GenSLM-TrpB中观察到的特性的来源，研讨团队提出了一个核心成绩：这些特征能否仅仅反映了模型捕获的自然序列多样性，还是模型引入了超出自然界发现的新特性？

研讨团队先前曾经证明，GenSLM生成的序列广泛跨越自然TrpB序列空间，同时保留关键的结构和退化约束。值得留意的是，催化活性的GenSLM-TrpB平均分布在这个空间中，表明模型采样了多个不同的功能处理方案，而不是收敛到单个序列簇。

虽然与自然序列的同一性很高，但GenSLM-TrpB相对于一切测试的自然同源物表现出加强的底物混杂性。由于测试一切57,000个已知自然TrpB的混杂性是不实在践的，研讨团队专注于一个代表性的GenSLM-TrpB——230，它表现出高催化活性和广泛的底物范围。

为了评价230相对于自然TrpB的混杂性，研讨团队寻觅了其最近的自然同源物：来自Neobacillus drentensis的TrpB（NdTrpB，NCBI ID: WP_335697934.1），它共享80.5%的序列同一性（400个残基中的322个），之前尚未被表征。运用AlphaFold3停止结构建模预测了相反的折叠，骨架RMSD为0.36 Å。活性位点残基高度保守，只要一个保守取代（V→I236）相差一个甲基基团。

(, 下载次数: 2)

（图5A）230和NdTrpB在室平和75°C下与自然底物以及各种非规范底物的产物产率比较

编码NdTrpB的基因被合成，在大肠杆菌中表达，并运用相反的方法与230一同纯化。NdTrpB的表达程度（75 mg/L培育物）高于230（5 mg/L），但它们表现出相当的热波动性（NdTrpB为，230为）。

但是，在催化方面，它们存在分明差异。运用室温下的大肠杆菌裂解液，两种酶都显示出高产物产率（NdTrpB为94%，230为92%）。但是，在75°C下，NdTrpB活性急剧下降至19%，而230几乎保持完全活性（94%）。更有目共睹的是，230在一组非规范底物上表现出分明更广泛的反应性，在所无状况下都超过了NdTrpB。NdTrpB仅对7-氰基吲哚和5-氟吲哚显示可检测的活性，这些底物之前已知被自然TrpB接受，而无法与更具应战性的底物产生任何产物。

(, 下载次数: 2)

（图5B）AlphaFold3预测的结构比对（骨架RMSD = 0.36 Å）：230显示为橙色，NdTrpB显示为绿色，非保守残基以紫色突出显示。特写描画了PLP 5 Å内的活性位点残基，只要一个活性位点残基在两个结构之间有差异
这项研讨带来了哪些启示？

蛋白质工程正在阅历由人工智能（AI）推进的严重转型，这正在重塑酶的设计和优化方式。在大型生物数据集上训练的AI模型可以生成具有分明多样性和功能功能的酶。虽然从头蛋白质设计可以创建可以催化非自然反应的蛋白质，但这种方法依然局限于相对简单的反应，目前还不适用于像TrpB这样高度复杂的系统，其机制触及两种底物、一个辅因子、动态构象变化和多步催化循环。

但是，研讨结果表明，GenSLM-TrpB可表达、催化活性强、波动且底物混杂性广泛。值得留意的是，几个GenSLM-TrpB在自然吲哚底物以及非规范底物上都超过了自然和实验室退化的TrpB。在测试的设计中，230作为一个非凡的例子锋芒毕露。这种酶在室平和75°C下在色氨酸构成方面都超过了经过广泛工程化的PfTrpB-0B2，同时在5-氟色氨酸的合成中达到了可比的产率。

鉴于PfTrpB-0B2的工业相关性及其在独立活性优化方面的悠久历史，发现一种优越的、由PLM生成的酶既令人诧异又令人兴奋。除了其杰出的催化活性外，230还表现出史无前例的底物混杂性，催化一切测试的非自然反应，这是在测试的自然TrpB中未观察到的特性。230与其最近的自然同源物（NdTrpB）之间的直接比较表明，虽然两种酶在室温下表现出相似的活性，但自然同源物缺乏高温活性和广泛的底物范围。这证明了230的多功能性不能简单地解释为复制具有相似特性的自然酶。

GenSLM-TrpB加强的活性和底物混杂性不能简单地归因于它们与自然序列空间的偏离。相反，GenSLM-TrpB落在自然TrpB的分布内，在保持催化活性和全体结构的同时，在混杂性方面有所不同。230和NdTrpB结构之间的详细比较表明，活性位点的残基保守性良好，大多数渐变位于末端区域或环区域内/附近。

这些蛋白质的78个氨基酸渐变使得难以合理化这些变化的影响，特别是思索到即便是细微的序列变化也能够极大地改变活性。例如，退化的TrpB显示出混杂性的分明变化，虽然它们相对于最近的自然TrpB只携带几个渐变。在中性退化下也观察到混杂性谱的分明变化，其中变体是基于活性保留而不是改出去选择的。

GenSLM-TrpB中观察到的高活性和加强的混杂性背后的缘由是巧妙且难以确定的。模型的多个组成部分能够影响生成蛋白质的分布和特性，包括自然trpB数据库的组成、生成模型及其预训练、微调策略以及运用的过滤。了解这些要素如何塑造蛋白质特性具有严重意义，由于它可以为设计改进的生物催化剂的参数选择提供信息。

这里运用的最小过滤不太能够对观察到的高活性和加强的混杂性担任。过滤有意保持宽松以避免引入不需求的成见，并且它们不会本质性地改变序列的全体分布。相反，加强的混杂性可动力于生成过程本身。GenSLM在1.1亿个原核基因上停止预训练。它也是一个在密码子程度而不是氨基酸程度操作的模型，其影响尚未得到片面研讨。不同的微调策略能够产生不同的结果，仅由BV-BRC的原核DNA序列组成的微调数据库本身也能够发挥重要作用。

风趣的是，在祖先序列重建（ASR）中观察到了相似的效果，这是另一种从退化数据推断祖先序列的数据驱动方法。与本研讨中观察到的相似，ASR生成的蛋白质通常表现出比其古代对应物更高的混杂性和波动性，这些特性已成功运用于蛋白质工程。这种效果的来源仍不清楚。虽然它被归因于恢复了本质上更具混杂性的祖先酶，但它可动力于重建方法本身。

这些结果突显了AI驱动设计在制造新型和有用酶方面的潜力。在优化的管道中，设计、基因合成和实验测试的整个周期可以在短短一个月内完成，为功能性酶提供了极其疾速的途径。研讨工作表明，GenSLM生成的酶文库结合了高活性和广泛的底物范围，使其成为探求新底物和退化新酶功能的理想终点，同时减少了实验负担。此外，一些生成的酶曾经媲美甚至超越实验室退化的酶这一理想表明，在某些状况下，它可以完全消弭定向退化的需求，为生物催化剂设计提供了弱小的加速，这是限制工业规模运用生物催化剂的次要瓶颈。
论文援用

Lambert, T., Tavakoli, A., Dharuman, G., Yang, J., Bhethanabotla, V., Kaur, S., Hill, M., Ramanathan, A., Anandkumar, A., & Arnold, F. H. (2026). Sequence-based generative AI design of versatile tryptophan synthases. Nature Communications, 17, 714. https://doi.org/10.1038/s41467-026-68384-6

项目代码与数据： https://github.com/AI-ProteinDesign/GenSLM-TrpB/

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)