职贝云数AI新零售门户

标题: 多伦多大学最新成果:AI大模型+强化学习破解抗菌肽设计难题,命中率提升3倍 [打印本页]

作者: Y1Ob6L    时间: 10 小时前
标题: 多伦多大学最新成果:AI大模型+强化学习破解抗菌肽设计难题,命中率提升3倍
科研、项目合作:panp6600  (注明来意,清北硕博团队专注于AI for Science自研大模型,接受天使轮投资,欢迎投资者咨询)

————————————

本文内容独家整理,盗用必究




抗菌素耐药性已成为全球公共卫生的严重要挟,传统抗生素的发现管线日益干涸。抗菌肽(AMPs)作为一类由10-50个氨基酸组成的短肽,因其独特的膜靶向机制和不易诱导耐药性而被视为后抗生素时代的希望。但是,经过传统实验方法挑选新型抗菌肽成本高昂且耗时漫长。来自多伦多大学的研讨团队最新提出的ProDCARL框架,将分散模型这一前沿AI大模型技术与强化学习算法深度交融,完成了抗菌肽的精准从头设计,**将高质量候选肽的命中率从2.0%大幅提升至6.3%**,为计算驱动的药物发现开拓了新途径。
为什么传统生成模型无法直接优化抗菌肽的功能目的?


现有的蛋白质生成模型,如变分自编码器(VAE)、生成对抗网络(GAN)和自回归模型,次要经过最大化序列似然或结构合感性来训练。这些方法的根本缺陷在于,它们优化的是统计学上的"像不像"蛋白质,而非生物学上的"有没有用"。 一个在统计分布上看似合理的序列,能够在抗菌活性或安全性上完全不达标。

分散概率模型作为近年来兴起的生成范式,已在蛋白质序列生成范畴展现出弱小才能,例如EvoDiff系统。但是,即便是最先进的分散模型,也只能学习蛋白质序列的概率分布,无法直接将"高抗菌活性"和"低毒性"这两个关键治疗目的编码到生成过程中。这导致生成的候选序列虽然看起来像抗菌肽,但在功能挑选中的经过率极低,大量计算资源被糜费在有效样本的生成和评价上。
ProDCARL如何将分散模型与强化学习深度耦合?


ProDCARL(Protein Diffusion with Classifier-guided Antimicrobial Reinforcement Learning)的核心创新在于构建了一个三阶段的优化管线(图1展现了全体框架):


图1:ProDCARL残缺流程表示图,包含数据预备、分类器训练、分散模型微调和强化学习对齐四个核心模块

第一阶段是范畴自顺应的分散先验构建。研讨团队选用了EvoDiff的序列有关去噪模型(OA-DM 38M)作为生成骨干。该模型采用随机掩码噪声的前向过程,去噪器则从未掩码的上下文中预测被掩码的残基。团队在从APD3和DBAASP数据库搜集的95,209条抗菌肽正样本上对该模型停止微调,使其成为一个范畴感知的先验分布。微调过程优化的是掩码地位上的负对数似然目的函数。图2展现了微调过程的定量分析:


图2:分散先验微调的定量分析。(a)显示负对数似然损失的训练轨迹及50批次移动平均值与±1σ暗影区;(b)展现最后100批次的损失分布;(c)呈现650-800步的后期损失值

从图2可以看出,预训练损失从约4.25稳步下降至2.38附近的平台期,后期200批次的方差包络显示出波动的功能。由于交叉熵可解释为预测正确残基的负对数似然,这一下降对应于残基预测准确率的提升——**模型在初始化时仅有约3%的token命中率,收敛后准确率超过10%**。

第二阶段是构建双分类器奖励系统。团队训练了两个独立的分类器,分别预测抗菌活性()和毒性()。两个分类器共享相反的架构:以预训练的Prot-T5-XL编码器为基础提取全局序列表示,然后经过多尺度卷积滤波器(核大小分别为3、5、7,每个100通道)捕获部分形式,再经自留意力层(编码维度300,4个留意力头,2层)交融表示,最终经过多层感知机(维度150和2,dropout率0.3)停止分类。

表II展现了两个分类器在测试集上的功能:
模型准确率敏感性特异性ROC-AUCPR-AUC
AMP模型0.9730.9070.9740.9790.851
毒性模型0.8880.8370.9080.9500.899

表II:AMP和毒性模型的测试功能表现,两者均达到了强判别才能,为后续强化学习提供牢靠的奖励信号

由于AMP和毒性数据集存在类别不平衡且能够包含标签噪声,研讨团队同时报告了ROC-AUC和PR-AUC两个目的。高达0.979的ROC-AUC和0.851的PR-AUC表明AMP分类用具有出色的判别才能,这为后续强化学习过程提供了牢靠的奖励信号。

第三阶段是强化学习对齐优化。这是ProDCARL最核心的技术创新。团队设计了一个结合奖励函数,将抗菌活性和低毒性这两个目的经过平方放大的方式结合:

这个二次缩放设计有其深入的数学考量:平方运算可以分明放大高分样本与低分样本之间的奖励差异,使梯度更集中于优质候选序列。对于分散模型生成,团队将OA-DM去噪器的最终去噪步骤输入视为策略 ,并经过对一切地位的token对数概率求和来近似序列对数概率:

这里  表示最终去噪步骤中地位  的模型条件。虽然这一近似并未计算残缺的分散轨迹似然,但它为策略梯度微调提供了波动且可微的替代函数。
如何在优化奖励的同时避免"奖励黑客"?


强化学习在生成义务中面临的最大应战是形式坍缩和奖励应用——模型能够收敛到极多数序列,或找到不理想的捷径来最大化奖励。ProDCARL采用了多重正则化机制来应对这些应战。

首先是top-k策略梯度更新。在每个批次中,仅对奖励排名前30%的序列计算梯度,这使得学习信号集中在高质量且信息丰富的样本上。优化目的函数为:

其中  是序列  的奖励, 是批次平均奖励基线。第二项是熵正则化项,其计算公式为:

这里  是批次大小, 是氨基酸字母表。熵项惩罚过于确定性的预测分布,鼓励模型在每个地位保持对多种残基的探求。团队将熵权重  设置为3,并运用AdamW优化器,学习率为 。

此外,团队引入了基于多样性监控的早停机制。当多样性目的(1 - 平均成对序列分歧性)延续下降  次迭代(设置为3)时,训练自动终止。这确保了即便在奖励持续上升的状况下,也不会牺牲序列的多样性。
强化学习对齐能带来多大的功能提升?


图5展现了强化学习过程中奖励与多样性的动态变化,这是了解ProDCARL优化机制的关键:


图5:强化学习时期的奖励与多样性变化。"EvoDiff+RL"表示从基础EvoDiff模型直接停止RL更新而不停止AMP微调;"EvoDiff+FT"表示仅停止AMP微调的先验而无RL更新;ProDCARL从AMP微调先验初始化RL,并运用top-k更新、熵正则化和早停

从图5可以明晰看到三条关键信息:

表III量化了不同方法的挑选功能对比:
模型平均AMP平均ToxAMP>0.7且Tox<0.3 (%)多样性
EvoDiff0.0380.0610.30.923
EvoDiff+FT0.0810.0762.00.930
EvoDiff+RL0.0370.0730.10.926
ProDCARL0.1780.1426.30.929

表III:不同方法在序列生成质量上的对比。一切模型的独一性得分均为1.0,表明无反复序列生成

结果极具压服力:ProDCARL将平均预测AMP得分从微调后的0.081提升至0.178,完成了2.2倍的增长。更重要的是,高质量命中率(同时满足pAMP>0.7和pTox<0.3的序列比例)从2.0%跃升至6.3%,提升了3倍以上。这意味着在相反的计算预算下,ProDCARL能产生三倍于基线方法的有效候选序列。

值得留意的是,平均毒性(Avg Tox)在ProDCARL下有所上升(从0.076升至0.142)。这一现象与阳离子和疏水性基序的耦合效应分歧——加强膜活性的序列特征往往也会提高毒性评分。但是,经过结合阈值过滤(pAMP>0.7且pTox<0.3)和去重处理,最终的高质量命中率仍分明提升,这正是ProDCARL作为候选生成器的实践价值所在。
生成的抗菌肽候选序列在结构和语义上能否合理?


为了验证生成序列的生物学合感性,研讨团队停止了两项定性分析。

第一项是基于AlphaFold3的结构可行性检验。团队选取预测AMP得分最高的前10条序列,运用AlphaFold3预测其三维构象。图3展现了自然抗菌肽与ProDCARL生成肽的结构对比:


图3:自然抗菌肽与ProDCARL生成肽的定性结构比较(AlphaFold3预测)。部分生成候选序列显示出以α-螺旋为主的构象,这与常见的AMP结构基序分歧。这些预测被用作短肽的定性合感性检查

结果显示,4个候选序列呈现出以α-螺旋为主的构象,这是许多膜活性抗菌肽的经典结构基序。其他候选序列显示出混合的卷曲/螺旋结构,这能够反映了两种状况:(1)在溶液中部分无序,与膜接触后才构成结构;(2)满足活性预测器但结构约束较少的序列。由于许多短肽的结构具有条件依赖性,团队将AlphaFold3的输入视为合感性检查而非功能验证。

第二项是基于ProtBERT的表示空间分析。团队运用ProtBERT对序列停止嵌入,并经过UMAP降维可视化。图4展现了生成肽与自然AMP在表示空间中的分布:


图4:ProtBERT-UMAP可视化比较ProDCARL生成肽与自然AMPs(APD数据库)。堆叠区域表明在表示空间中的对齐,而生成候选序列较窄的分布能够反映了固定长度和奖励塑形的影响,而非自然AMP的全部多样性

ProDCARL候选序列落在自然AMP嵌入的密集区域内,表明微调和RL对齐保留了全局的AMP样语义特征。更严密的聚类是预期的,由于固定长度约束()和奖励塑形将采样集中到物理化学特征更窄的子集(如阳离子和疏水形式)。观察到的堆叠支持了语义分歧性,但分布的缩减也表明ProDCARL尚未捕获自然AMP景观的全部多样性。
ProDCARL的局限性与将来发展方向是什么?


虽然获得了令人鼓舞的计算结果,研讨团队坦诚地指出了几个关键局限:

首先,一切评价目的依赖于相反的AMP和毒性预测器作为奖励模型,因此结果量化的是奖励对齐的挑选功能,而非独立预测器的分歧性。这种自我参照的评价能够高估了实践功能。

其次,ProDCARL优化的是替代奖励模型而非实验测定值,这能够引发"奖励黑客"——生成器应用预测器的偏好而不具有真实活性或安全性。虽然top-k更新、熵正则化、去重和早停在实验中减轻了坍缩,但更强的保障措施依然必要。将来工作应测试奖励集成、不确定性感知惩罚和约束多目的优化,以提高鲁棒性。

第三,RL对齐质量取决于数据集覆盖度、标注残缺性和训练假设。来自SwissProt的AMP阴性样本能够包含未标注的AMPs,较小的毒性集能够限制泛化才能。跨义务的不同拆分策略和冗余过滤也能够在预测器和生成候选序列之间形成分布偏移。在保留来源和额外预测器上停止外部验证将更好地测试泛化才能并减少单一模型偏向。

第四,生成被限制为固定长度,这简化了优化但减少了自然AMP长度的覆盖范围。这一约束能够导致表示空间中更严密的聚类和序列多样性的降低。支持变长生成并可以调控目的长度范围将拓宽在肽家族中的适用性。

第五,奖励函数仅思索预测活性和毒性,但忽略了波动性、溶解度等关键成药性要素,也未触及免疫原性、蛋白酶抗性和可制造性。为这些属性添加额外目的或显式约束将支持适用候选序列的生成,并减少过度疏水或阳离子的输入。

最后,也是最重要的,一切结果均为计算模拟(in silico),研讨提供的是计算分流而非生物学验证。ProDCARL优先挑选大批候选序列用于湿实验测试,其中测定将决议效能、选择性和安全性。
结语


ProDCARL代表了计算抗菌肽设计范畴的重要技术提高,初次将分散模型与强化学习结合,完成了对抗菌活性和安全性的直接优化。经过范畴自顺应微调、双分类器奖励系统和多重正则化的RL对齐,该框架在保持高序列多样性的同时,将高质量候选肽的命中率提升了三倍。这为减少依赖蛮力湿实验挑选、支持更可持续且能够更公平的早期抗菌药物发现管线提供了新的能够。

值得强调的是,ProDCARL作为候选序列生成器,其价值在于减少实验搜索空间,优先挑选最有希望的序列停止下游实验验证。下一步的关键工作包括经过奖励集成和约束多目的优化加强对奖励黑客的防护,以及最重要的——对生成候选序列停止系统的体外和体内实验验证。

项目代码和数据已开源: https://github.com/HIVE-UofT/ProDCARL


论文援用:

Sheng, F., Noaeen, M., & Shakeri, Z. (2025). ProDCARL: Reinforcement Learning-Aligned Diffusion Models for De Novo Antimicrobial Peptide Design. University of Toronto.


                ---------------------结束---------------------

— 商务合作— |AI for Science / AI 制药:模型复现、训练微调、部署与平台工程化交付

我们提供AI大模型工程化与可交付部署服务服务,面向 AI for Science / AI 制药方向(包括蛋白质、分子生成、结构预测、虚拟挑选、docking、单细胞等)。从“研讨脚本”晋级为可复现、可训练可微调、可评测、可部署、可交接的系统化工程。
1)环境与复现交付(从零到跑通)

2)训练(Training)与微调(Fine-tuning)工程交付

3)推理(Inference)与批量义务运转

4)评测(Evaluation)与报告自动化

5)平台化与团队可用(课题组/团队落地)

6)部署、运维与交付

咨询:panp6600







欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5