开启左侧

AI与大模型加速抗体开发:基于序列与结构的高通量SEC可开发性预测深度解读

[复制链接]
在线会员 kDBivAx 发表于 2025-2-14 05:50:28 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
————————————

独野收拾整顿,匪用必究





1、钻研布景:抗体开辟取可开辟性挑战

正在造药止业,单克隆抗体(mAbs)已经成为针对于多种徐病(如肿瘤教、自己免疫、传染、血汗管、代开徐病等)的主要医治伎俩。特别是IgG1亚型,果其可下效分离靶面、免疫活性强等特征,更是正在浩瀚抗体药物中占有支流职位。停止今朝,已经有超越145种抗体药物得到FDA赞成。

但是正在抗体晚期开辟中,研收职员常常不但要存眷其靶面分离活性,借需要查询拜访其正在后绝消耗战造剂工艺中的“可开辟性”(Developability)。可开辟性目标经常涵盖物理化教颠簸性、可溶性、会萃偏向、免疫本性等等。假设抗体前期因为消融性不敷或者颠簸性较好等启事正在临床阶段失利,将会招致弘大的本钱糜掷战时间消耗。因而,可否正在晚期发明抗体的可开辟性成就并给以劣化,具备严峻意思。

可是,检测那些可开辟性特性常常需要耗时少、用度下的尝试办法。比方:
    SEC(尺微暇排阻色谱)能够辅佐检测卵白会萃形状战单体百分比;DLS(静态光集射)能够理解份子巨细散布;DSC(好示扫描质冷法)能够理解卵白冷颠簸性;IEF(等电散焦电泳)能够评介卵白等电面;
    等等。

正在那篇论文中,作家散焦于SEC办法中最多见的二个目标:
    **Monomer %**(单体百分比):正在SEC中,卵白会随份子质巨细差别而被别离,检测单体露质能够直接反应卵白会萃偏向。∆RT(保存时间差别):将目标抗体的保存时间取参照抗体NIP228的保存时间比拟较,获得的好值能够必然水平上反应卵白的份子特性,如电荷、疏火性等,从而作用卵白正在SEC中的举动。

作家期望用AI取年夜模子手艺,正在不截至庞大冗杂的尝试丈量时,颠末序列战(或者)构造疑息去快速猜测那些可开辟性目标,辅佐选择出可开辟性较劣或者可以存留成就的抗体序列。


2、部分钻研思路取手艺框架

原钻研最中心的成就可描绘为:给定一个IgG1抗体的氨基酸序列,怎样正在较少或者无尝试丈量的情况下,快速猜测其正在SEC中的枢纽丈量成果(或者成就严峻性)?

作家提出了四条手艺门路:
    鉴于卵白序列+构造的保守Feature工程PLM(卵白年夜模子)序列嵌进鉴于卵白构造的图神经收集(GNN)PLM + GNN融合

从右到左,构造到场水平战计较价格逐步升高,但是疑息也越发丰硕。可是,年夜模子(PLM)的呈现供给了新的可以,因为正在年夜范围卵白序列语料上锻炼获得的PLM常常已经“内乱隐”了对于卵白构造取功用之间干系的理解,可以只使用序列,就可以得到可取隐式构造模子媲好的猜测结果。

上面将分章节介绍那些手艺门路。为了辅佐各人直觉理解,作家正在本论文中给出了调整事情过程图。


图正在本论文职位:
图 2:

AI取年夜模子加快抗体开辟:鉴于序列取构造的下通质SEC可开辟性猜测深度解读w2.jpg

该图主要分析了如下四种管线:
    (a) Sequence and Structure-based Features:先使用构造猜测东西获得卵白构造,而后正在Schrodinger硬件中提炼多种卵白教特性,最初用机械进修模子(如Extra Trees)截至分类或者返回;(b) PLM Pipeline:只依靠序列,将其输出到预锻炼卵白语言模子(PLM),而后加之一个沉质的MLP分类头截至猜测;(c) GNN Pipeline:鉴于猜测获得的三维构造,建立氨基酸级此外图暗示,借帮GNN完毕对于属性的猜测;(d) PLM + GNN:先用PLM将序列编码为隐背质,再将那些隐背质动作节面特性,分离构造所界说的图边干系输出到GNN收集,并干端到端锻炼。


3、数据取尝试设想:SEC数据及其两分类阈值

3.1 下功用SEC(HPSEC)及其丈量属性

论文拔取了SEC丈量中的Monomer %战∆RT那二年夜中心目标。
    **Monomer %**越下,表示着抗体会萃更少,凡是可开辟性更佳;∆RT是某抗体相对参照抗体NIP228(保存时间约8.47min)的偏偏离度。假设偏偏离过年夜或者太小,皆可以分析其特征取一般单体存留差别而招致潜伏的可开辟性危急。

凡是名目团队会为那些目标设定“成就”阈值,比方Monomer %高于某个百分比,或者∆RT偏偏离某数值范畴,便鉴别为“不成开辟”或者“需要劣化”。论文中将那二类样原标识表记标帜为0(可开辟)或者1(成就)。

本文中的图1给出了那二个目标的数据散布:

AI取年夜模子加快抗体开辟:鉴于序列取构造的下通质SEC可开辟性猜测深度解读w3.jpg

该图能够清楚瞅到,正在Monomer %散布上有一个阈值分开,那暗示高于某数值便望为有成就;关于∆RT来讲,越切近0凡是越一般,偏偏离年夜的望为成就抗体。

3.2 数据散滥觞取分别

论文汇集了约1200个IgG1抗体份子,收拾整顿来沉后,针对于Monomer %战∆RT各得意到约1200条样原(因为有多量重复,处置后二者范围根本类似)。随即作家干了90%:10%的锻炼-尝试分别,并保证锻炼取尝试正在序列百般性上有充足代表性。

为退一步评介模子泛化性,作家借使用10合穿插考证的方法正在锻炼散上截至算法取超参数选择,再用自力的10%尝试散干终极功用评介。


4、四年夜AI猜测管线的手艺道理取尝试成果

上面将别离介绍那四条手艺门路,包罗其手艺道理、收集模子设想、和终极的尝试比照成果。


4.1 鉴于序列取构造隐式特性的机械进修办法

正在那条管线上,钻研职员主要步调是:
    使用AlphaFold2或者类似东西对于每一个抗体序列截至构造猜测;正在Schrodinger硬件中提炼各类卵白份子描绘符(descriptor),涵盖序列取三维构造的定额特性,如:电荷散布、疏火性散布、会萃偏向评分等;对于特性截至过滤、落维、主要性阐发,最初留住多少最能猜测SEC目标的枢纽特性;使用示范型(Extra Trees)截至分类,输出该抗体可否“成就”。

按照作家正在本论文附录A的描绘,他们从初初的上千种特性中选择出了没有到50个终极被使用。图3(论文本文所示)是他们举的一点儿枢纽特性取SEC目标相干性的例子:

AI取年夜模子加快抗体开辟:鉴于序列取构造的下通质SEC可开辟性猜测深度解读w4.jpg

该图显现,取疏火、会萃相干的一系列特性对于Monomer %战∆RT皆十分主要,因为抗体正在SEC中的非常举动常常即是由疏火会萃等归天性子构成的。

作家借给出了一个比力全面的穿插考证特性挑选历程,终极挑选的特性险些皆散焦正在Fv地区的疏火取会萃偏向。他们将那多少十个特性搁进Extra Trees分类器,截至10次10合CV,并正在自力尝试散上截至终极功用评介。


4.2 仅鉴于序列的卵白语言模子(PLM)办法

远多少年,跟着AI年夜模子正在天然语言处置上的突破,正在卵白序列上截至自监视锻炼的年夜模子(Protein Language Model, PLM)也疾速鼓起,如ESM系列、ProtGPT等。它们常常用数万万条、以至数亿条卵白序列截至年夜范围预锻炼,能够捕获序列取构造/功用之间的映照干系。

正在原论文中,作家将沉链战沉链序列别离输出到预锻炼佳的PLM(如ESM2或者AbLang等)中,获得每一个氨基酸冷炙基的下维embedding。交着对于整条链的embedding截至池化(比方均匀池化或者从特别[CLS]标记提炼),获得一个链级别背质。最初将沉链、沉链背质拼交,再颠末一个小型的MLP猜测目前抗体可否为“成就”。

作家提出了多种微调计划:
    PLM参数齐解冻(fixed PLM):只锻炼最初的MLP;齐参数微调:许可统统PLM内部权沉皆革新;LoRA高秩适配:只正在留神力层拔出 多量可锻炼参数,以适应下流任务。

正在论文附录的图4(Monomer %)战图7(∆RT)中,别离显现了那些拉拢正在10次10合穿插考证中的表示。上面列出图4取图7的链交取分析:

    图4(论文本文):对于Monomer %下6种PLM管线拉拢的10合CV成果:

    AI取年夜模子加快抗体开辟:鉴于序列取构造的下通质SEC可开辟性猜测深度解读w5.jpg

    该图表白,差别的微调方法、差别的池化战略会作用F1分数战精确率,但是部分差异并非出格弘大。

    图7(论文本文):对于∆RT下6种PLM管线拉拢的10合CV成果:

    AI取年夜模子加快抗体开辟:鉴于序列取构造的下通质SEC可开辟性猜测深度解读w6.jpg

    能够瞅到,正在∆RT任务上,差别拉拢之间也存留必然颠簸,但是整体粗度也皆比力可不雅。


4.3 鉴于三维构造的图神经收集(GNN)

关于卵白量三维构造,每一个氨基酸冷炙基均可以望为图中的一个节面,并按照空直接远度去界说边(如最靠近的k个邻人,或者正在必然距离阈值r_thr内乱的冷炙基)。正在论文中,作家对于IgG1的可变区截至修模,并树立了一个距离阈值约9 Å,进而获得一个均匀13个邻人的稠密图。

交下来,对于每一个节面(氨基酸)可附带多种特性,如:
    One-hot的氨基酸范例;氨基酸性子描绘符(戴电性、疏火性、极性等);从预锻炼模子(VGAE或者ESM2)中获得的隐背质;和两里角疑息等。

而后使用GNN截至消息通报取聚拢,获得卵白部分的背质暗示,用于下流分类。作家正在完毕上尝试了3种经常使用的GNN:
    GVP(Geometric Vector Perceptron):可共时处置标质特性取背质特性;GAT(Graph Attention Network):鉴于留神力体制;GIN(Graph Isomorphism Network):鉴于邻域聚拢的强表示才气模子。

作家正在图5(Monomer %)取图8(∆RT)干了各类GNN+节面特性拉拢的10合CV比力:

    图5(论文本文):9种GNN管线正在Monomer %任务下的表示:

    AI取年夜模子加快抗体开辟:鉴于序列取构造的下通质SEC可开辟性猜测深度解读w7.jpg

    能够瞅出,有的节面嵌进如VGAE或者ESM2正在某些树立下可以呈现支敛没有颠簸的情况。

    图8(论文本文):12种GNN管线正在∆RT任务下的表示:

    AI取年夜模子加快抗体开辟:鉴于序列取构造的下通质SEC可开辟性猜测深度解读w8.jpg

    能够瞅到,关于∆RT而行,构造疑息可以更清楚,部门GNN树立会得到比力佳的成果。


4.4融合 PLM取GNN的混淆架构

正在论文的PLM+GNN管线中,作家提出了将PLM输出的每一个冷炙基embedding动作GNN的节面特性,并正在端到真个锻炼中让PLM参数也能获得微调,进而共时思考序列取构造对于卵白各冷炙基的作用。

他们采用了3个PLM(ESM2(8M)、AbLang-一、AbLang-2)取3个GNN(GVP、GAT、GIN),再加之2种全部池化战略(mean pooling战universal pooling),统共18种拉拢。

正在图6(Monomer %)取图9(∆RT)中,他们对于那些拉拢的10合CV分数干了全面比照:

    图6(论文本文):12种PLM+GNN管线正在Monomer %任务下的表示(此中一点儿拉拢作家可以简略):

    AI取年夜模子加快抗体开辟:鉴于序列取构造的下通质SEC可开辟性猜测深度解读w9.jpg

    图9(论文本文):18种PLM+GNN管线正在∆RT任务下的表示:

    AI取年夜模子加快抗体开辟:鉴于序列取构造的下通质SEC可开辟性猜测深度解读w10.jpg


从那些成果瞅,许多情况下,PLM+GNN的猜测功用能够取以至超越仅构造或者仅PLM的办法,但是正在锻炼开销、颠簸性圆里可以也有所增加。作家更存眷终极比照尝试散的表示。


5、终极尝试散比照:多望角目标权衡

正在论文中的主表格表1取表2,作家把它们动作正在自力尝试散上的Monomer %取∆RT猜测表示成果,露有Accuracy、F一、Sensitivity等目标。

上面是本文表1(对于Monomer %)的实质:
Prediction PipelineAccuracyF1Sensitivity
PLM0.75 (0.03)0.54 (0.04)0.52 (0.05)
GNN0.74 (0.02)0.49 (0.03)0.44 (0.04)
PLM + GNN0.75 (0.01)0.50 (0.04)0.43 (0.06)
Sequence + Structure based features0.77 (0.01)0.49 (0.04)0.38 (0.05)

看来,正在Monomer % 任务上,Sequence + Structure-based features(提炼隐式特性、用Extra Trees分类)得到了 最下Accuracy(约0.77),但是Sensitivity(召回成就份子)只需0.38。表示着它部分精确率没有错,但是对于成就样原的识别较强。

而PLM门路得到了绝对更均衡的表示,F1战Sensitivity皆更佳一点儿,Accuracy稍高一面,但是部分仍很劣。

交下来是表2(对于∆RT)的实质:
Prediction PipelineAccuracyF1Sensitivity
PLM0.77 (0.02)0.60 (0.04)0.56 (0.06)
GNN0.80 (0.03)0.64 (0.07)0.58 (0.10)
PLM + GNN0.78 (0.04)0.61 (0.13)0.57 (0.15)
Sequence + Structure based features0.80 (0.01)0.59 (0.03)0.46 (0.05)

关于∆RT,Sequence+Structure-based features的Accuracy取GNN皆正在0.80阁下,但是GNN的Sensitivity更下(0.58 vs 0.46)。对于很多团队而行,下Sensitivity能够及早拂拭潜伏危急较下的份子。

分析瞅,GNN正在∆RT任务上仿佛更有劣势,而PLM正在Monomer %任务上表示更均衡。PLM+GNN虽部分功用介于二者之间,但是易受到构造品质战锻炼颠簸性作用,尺度好略年夜。


6、免疫构造猜测东西改换对于功用的作用:I妹妹uneBuilder vs AlphaFold2

因为AlphaFold2正在抗体构造猜测上固然精确度下,但是计较速率也比力缓,纷歧定适宜超年夜范围选择。作家又退一步尝试了I妹妹uneBuilder(更快的免疫卵白构造猜测东西),并比力了正在那二种构造滥觞下,Sequence+Structure-based Features、GNN、PLM+GNN三种管线正在尝试散上的表示。

成果展现在表3(Monomer %)取表4(∆RT)中:
    表3(Monomer %)
PredictionPipelineStructure Prediction ToolAccuracyF1Sensitivity
GNNAlphaFold20.74 (0.02)0.49 (0.03)0.44 (0.04)
I妹妹uneBuilder0.75 (0.02)0.46 (0.04)0.38 (0.04)
PLM+ GNNAlphaFold20.75 (0.01)0.50 (0.04)0.43 (0.06)
I妹妹uneBuilder0.74 (0.02)0.49 (0.05)0.44 (0.08)
Sequence+Structure based featuresAlphaFold20.77 (0.01)0.49 (0.04)0.38 (0.05)
I妹妹uneBuilder0.76 (0.01)0.45 (0.04)0.34 (0.04)

    表4(∆RT)
PredictionPipelineStructure Prediction ToolAccuracyF1Sensitivity
GNNAlphaFold20.80 (0.03)0.64 (0.07)0.58 (0.10)
I妹妹uneBuilder0.78 (0.03)0.59 (0.07)0.52 (0.10)
PLM + GNNAlphaFold20.78 (0.04)0.61 (0.13)0.57 (0.15)
I妹妹uneBuilder0.79 (0.01)0.62 (0.04)0.55 (0.06)
Sequence + Structure based featuresAlphaFold20.80 (0.01)0.59 (0.03)0.46 (0.05)
I妹妹uneBuilder0.79 (0.01)0.54 (0.02)0.40 (0.02)

因而可知:
    构造精确度较下时(AlphaFold2),“Sequence + Structure-based Features”或者“GNN”凡是功用略佳。换用I妹妹uneBuilder构造后,固然功用略有降落,但是计较速率快,对于∆RT任务特别是“PLM+GNN”连结了没有错的颠簸性战较好均匀F1分数。

因而,假设对于下通质需要更敏感,使用I妹妹uneBuilder仍然是个可止的折衷计划。


7、钻研论断取瞻望

原篇论文针对于SEC中的二个枢纽可开辟性目标:Monomer %取∆RT,正在约1200个IgG1的尝试数据上,体系比照了四种AI取年夜模子猜测过程。
    Sequence + Structure-based保守特性工程:正在Accuracy上有必然劣势,但是正在识别成就份子的敏感度较高;PLM序列模子:正在Monomer %取∆RT上皆能得到较佳的F一、Sensitivity,且无需截至卵白构造猜测,是一种简朴且下通质的计划;GNN:关于对于∆RT这类更依靠三维构象的疑息时,表示可不雅;PLM+GNN:融合了序列的PLM表示取空间毗邻干系,对于庞大属性有更强的表示力,但是锻炼战构造猜测的资本请求更下;当构造猜测东西从AlphaFold2交流为I妹妹uneBuilder时,也能以较快速度完毕类似水平的成果,特别正在PLM+GNN计划下表示较佳。

从部分角度瞅:
    假设期望正在Monomer %上疾速得到晚期选择成果,并寻求对于“成就样原”更敏感的识别,那末PLM是一条优良又下效的计划;假设需要对于∆RT截至更深入的猜测、思考更庞大的构造作用,则GNN或者PLM+GNN值患上重心加入;假设对于构造猜测的精确度请求十分下,且其实不寻求极致的通质或者速率,也可使用AlphaFold2分离保守特性工程,但是需要留神关于成就样原的Sensitivity不敷下;假设寻求速率战年夜范围选择,共时期望正在∆RT上也有必然精确度,I妹妹uneBuilder + PLM+GNN是没有错的折中之选。

最初,作家指出关于更年夜范围、更普遍滥觞的抗体序列(如Lead Optimization中会碰到微调的类似序列,Lead Identification中会呈现不同弘大的序列),模子的中拉才气战妥当性仍值患上后绝深入钻研。跟着野生测序数据本钱的退一步降落和卵白语言模子的不竭劣化升级,分离AI取年夜模子的卵白可开辟性猜测,势必成为新药研收的强力加快器。


8、更多会商:对立体范围取AI年夜模子未来的启迪

    Out-of-Distribution(OOD)成就:
    固然原钻研数据去自多个内部名目,但是正在新的理论名目中可以会呈现更偏偏离锻炼散布的序列。钻研表白PLM可以正在序列散布中的场景下仍然有必然鲁棒性,但是仍需更体系的尝试。

    高数据质场景下的可止性:
    原论文的数据范围正在抗体可开辟性钻研中算是比力丰硕的(1200条)。但是关于其余有数的或者高贵的尝试数据,可以数据更少。正在这种情况下,可思考用预锻炼年夜模子截至迁徙进修或者少样原进修,以提拔结果。

    构造隐式修模 vs 隐式暗示:
    PLM等年夜模子可以已经进修到某些“构造线索”,但是正在某些庞大情况下,隐式的构造疑息仍然能戴去弥补。作家也瞻望未来新的构造自监视模子正在锻炼PLM时便内乱置三维疑息,或者可退一步提拔可开辟性猜测结果。

    产业化降天取散成:
    造药企业可接纳类似体系,将潜伏份子先正在PLM上筛一轮,再对于此中下劣或者可信的份子截至构造猜测+GNN或者尝试的精密表征。云云,便可组成多层漏斗式选择,年夜幅进步服从。


9、归纳取称谢

原篇钻研为抗体晚期开辟中的下通质可开辟性猜测供给了明了思路:
    针对于罕见的SEC单体露质战保存时间倾向,可使用杂序列或者分离构造的多种AI年夜模子完毕下效猜测;正在尝试本钱日趋昂扬的布景下,这类AI帮助选择可极年夜放慢研收历程,低落前期失利的危急;差别模子战构造猜测东西各有劣缺点,需要分离名目需要(如计较资本、对于Sensitivity的请求等)分析挑选。

作家也正在文终对于撑持原钻研的共事暗示了由衷感谢,并出格提到取多个团队的合作使该名目患上以完毕。

因为论文中并已给出残破公然的代码堆栈或者Huggingface模子链交,如有读者期望退一步理解,可正在本文(bioRxiv: doi: 10.1101/2025.02.02.636157)找到作家疑息并取之联系。


Q&A关节:

Q1:正在那项钻研中,作家接纳了哪些差别的管线去猜测尺微暇排阻色谱(SEC)的可开辟性目标,它们正在部分架构上有何区分?请分离论文中的主要过程图截至手艺道理上的深入解读。
A:作家正在论文中提出了四条主要的管线去猜测抗体正在SEC中的表示:第一条是鉴于隐式序列取构造特性的办法;第两条是纯真使用卵白语言模子(PLM)的方法;第三条文是鉴于氨基酸图构造的图神经收集(GNN)办法;最初是分离了PLM取GNN的分析管线。它们皆环绕异常的目标:按照抗体的序列或者序列+构造疑息,猜测单体露质(Monomer %)或者保存时间好(∆RT),进而鉴别抗体正在开辟过程当中的可止性战潜伏成就。为了明了显现那些办法,作家给出了论文中“图2”的部分过程暗示:


  )。正在图2里,咱们能够瞅到四种门路正在架构上皆有输出层(序列或者序列+构造),但是正在特性提炼或者嵌进暗示上偏重面差别。鉴于隐式特性的管线要先挪用构造猜测东西(如AlphaFold2),再用Schrodinger硬件提炼各类卵白教特性(疏水份布、电荷散布等)并用示范型截至分类;PLM管线间接将序列输出到如ESM2等预锻炼模子获得冷炙基嵌进,再颠末简朴的MLP完毕分类;GNN管线则需要将猜测佳的卵白三维构造转为节面(冷炙基)+ 边(距离阈值或者k隔壁)的图数据,颠末图神经收集截至消息通报取聚拢;PLM+GNN则分离了二者的劣势:每一个冷炙基的初初节面暗示去自PLM,而构造决定了节面间的连边战职位干系,最初再用GNN截至部分猜测。颠末那个过程图,就可以直觉理解作家怎样正在统一数据散上比力差别模子思路的好坏取合用性。

Q2:作家正在数据滥觞战分类标签分别上干了哪些处置,为什么挑选将单体露质战保存时间好动作枢纽目标,并正在论文中的哪弛图可察看到那二类目标的具体散布?
A:那项钻研的抗体数据散范围约有1200个IgG1份子,涵盖了差别滥觞战大批序列百般性。作家先对于那些样原干了来沉处置,以保证每一个序列只需唯一的丈量记载,而后根据90%锻炼+10%尝试的方法截至数据分别。他们借颠末散类战分层抽样,保证尝试散包罗了比较全面的序列百般性。之以是挑选单体露质(Monomer %)战保存时间好(∆RT)那二个目标,主要是因为它们正在尺微暇排阻色谱中尤其罕见且能间接反应可开辟性:Monomer %越高,卵白会萃成就越严峻;∆RT偏偏离越年夜,也表示抗体正在份子属性(电荷、疏火性等)上或者有清楚差别,进而作用后绝消耗战杂化。作家正在论文中“图1”里具体画造了那二个属性的散布情况:


  )。正在图1中能够瞅到,用白色实线标识表记标帜的“成就阈值”将样原分别为可开辟(label为0)或者存留可开辟性危急(label为1)。作家颠末那些标签完毕两分类锻炼,钻研哪一种模子正在该预警任务上结果最好。

Q3:正在鉴于隐式特性的保守机械进修管线上,作家是怎样从大批Schrodinger特性当选出最具猜测力的多量特性?终极成果表示怎样?可否正在文中找到相干功用表格?
A:正在隐式特性工程管线中,钻研职员先颠末AlphaFold2猜测3D构造,而后使用Schrodinger硬件计较包罗疏火性、会萃偏向、电荷散布等正在内乱的大批卵白份子描绘符。那些特性初初数目可以多达上千维。为了避免过拟开取数据噪声的滋扰,他们分析使用了圆好阈值法战特性相干性剔除,并对于盈余特性干主要性襟怀选择,最初只保存四五十个取SEC猜测最强相干的属性。作家正在论文中“图3”:


  )给出了一点儿枢纽特性取SEC属性的集面相干干系,凸起夸大了Fv片断的疏火战会萃偏向。终极使用Extra Trees分类器去猜测。若咱们念瞅比照其余办法的具体尝试调集因,能够检察论文中的“表1”取“表2”。上面以表1(对于Monomer %)为例,本文以下:
Prediction PipelineAccuracyF1Sensitivity
PLM0.75 (0.03)0.54 (0.04)0.52 (0.05)
GNN0.74 (0.02)0.49 (0.03)0.44 (0.04)
PLM + GNN0.75 (0.01)0.50 (0.04)0.43 (0.06)
Sequence + Structure based features0.77 (0.01)0.49 (0.04)0.38 (0.05)

能够瞅到,“Sequence + Structure based features”正在Accuracy上略微争先,但是它的Sensitivity仅为0.38,分析它对于成就份子的召回才气强。不外正在理论使用中,假设团队越发重视对于成就份子的晚期排查,那末F1战Sensitivity的均衡可以更主要,那便需要分离名目需要截至挑选。

Q4:正在PLM+GNN的混淆架构中,怎样将卵白语言模子的疑息取卵白三维构造分离正在共同?关于庞大属性猜测比方∆RT,结果可否清楚?能够参考论文中的哪弛图去理解具体锻炼表示?
A:正在PLM+GNN那一融合办法中,作家先使用预锻炼的卵白语言模子(如ESM二、AbLang-一、AbLang-2)对于每一个氨基酸冷炙基天生下维隐背质,进而为图中的节面供给一个能表示序列高低文干系的初初暗示。交下来,他们按照猜测的卵白构造疑息,建立冷炙基级此外图,此中节面之间的连边鉴于空直接远度或者牢固距离阈值。如许,图神经收集(如GVP、GAT、GIN)就能够正在每一个通报革新过程当中,将节面的PLM背质取构造邻人疑息订交融,进修到更充实的卵白性子。端到端锻炼时,PLM也能够获得反背梯度革新,进而退一步适应下流的可开辟性猜测任务。正在里背∆RT等更庞大的表征时,这类混淆方法能够更佳天捕获序列-构造接互因素。咱们从论文中“图9”:


  )就可以瞅到针对于∆RT猜测任务时,作家对于18种PLM+GNN拉拢睁开了10合穿插考证尝试的成果散布,固然部门拉拢正在锻炼颠簸性上差别略年夜,但是部分功用表白这类融合办法能够统筹序列取三维构造二圆里的长处,合用于更具挑战性的SEC属性猜测。

Q5:作家对于构造猜测东西也干了比照,如把AlphaFold2换成I妹妹uneBuilder后,部分功用有甚么变革?正在论文的哪弛表中能够瞅到具体数值?
A:正在理论使用中,AlphaFold2的构造猜测粗度当然下,但是计较速率也比力缓,关于需要下通质选择的年夜范围抗体库可以会成为瓶颈。为了考证差别构造猜测东西对于下流模子的作用,作家分外使用I妹妹uneBuilder,它正在免疫卵白构造猜测时更加快速下效,并将新发生的构造疑息交流失落本来AlphaFold2获得的数据,而后重复正在“Sequence+Structure-based Features”、“GNN”、“PLM+GNN”三个管线下的锻炼取尝试。钻研者正在论文的“表3”战“表4”比照了Monomer %(表3)取∆RT(表4)的具体成果。比方正在表3(Monomer %)的成果中,GNN战“Sequence + Structure-based features”正在Accuracy上取AlphaFold2比拟略微升高或者持仄,但是Sensitivity有所降落;而PLM+GNN正在某些场景下则连结更颠簸的F1取Sensitivity。上面是表4(对于∆RT)动作参照:
PredictionPipelineStructure Prediction ToolAccuracyF1Sensitivity
GNNAlphaFold20.80 (0.03)0.64 (0.07)0.58 (0.10)
I妹妹uneBuilder0.78 (0.03)0.59 (0.07)0.52 (0.10)
PLM + GNNAlphaFold20.78 (0.04)0.61 (0.13)0.57 (0.15)
I妹妹uneBuilder0.79 (0.01)0.62 (0.04)0.55 (0.06)
Sequence + Structure based featuresAlphaFold20.80 (0.01)0.59 (0.03)0.46 (0.05)
I妹妹uneBuilder0.79 (0.01)0.54 (0.02)0.40 (0.02)

能够瞅到表中没有累0.78~0.80的Accuracy及各类F一、Sensitivity变革。最清楚的论断是PLM+GNN正在I妹妹uneBuilder这类更快的构造猜测成果上仍然能够得到可不雅的成就,出格适宜对于∆RT的猜测需要。那分析正在差别的构造猜测方法下,部分管线仍然比力妥当,有帮于理论财产化降天时活络挑选速率或者粗度更劣的折中计划。

AI取年夜模子加快抗体开辟:鉴于序列取构造的下通质SEC可开辟性猜测深度解读w15.jpg
https://www.biorxiv.org/content/10.1101/2025.02.02.636157
死物年夜模子锻炼微调使用&AI卵白量设想专科学程 请退 常识星球 👇👇👇

(客服 sssmd9 可启票)
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )