开启左侧

AI大模型赋能新型抗生素挑选:深度解析CL-MFAP多模态对比学习框架

[复制链接]
在线会员 8PSoKs86y 发表于 2025-2-23 06:03:33 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
————————————

独野收拾整顿,匪用必究



正在目前大众卫死布景下,抗菌药物耐药性不竭低落,寻找崭新抗菌化开物已经成为迫在眉睫的主要问题。可是,保守药物研收历程常常本钱下、周期少,没法快速满意临床需要。为此,年夜模子(Large Model)和AI启动的新一代药物研收情势应运而死。“CL-MFAP: A CONTRASTIVE LEARNING-BASED MULTIMODAL FOUNDATION MODEL FOR MOLECULAR PROPERTY PREDICTION AND ANTIBIOTIC SCREENING”。那篇论文提出了一种鉴于比照进修的多模态年夜模子框架(CL-MFAP),共时思考了份子SMILES序列、份子指纹和份子图三种差别方法的份子疑息,能正在无需大批戴标签数据的情况下,锻炼出具备更下鲁棒性取普遍合用性的份子暗示进修模子,特地用于猜测份子潜伏抗菌属性并撑持后绝抗死艳假造选择。


1、布景取钻研念头:从抗菌耐药性到AI年夜模子的兴起

抗菌耐药性已经成为环球性大众卫死困难,保守抗死艳逐步获得对于诸多致病菌的有用性。那正在呵责吸讲、消化讲和很多流行症范围皆极端严重。为了尽量开辟出崭新抗菌药物,教界取产业界开端测验考试使用深度进修及年夜模子手艺,颠末对于海质份子数据的下效开掘取修模,去猜测战选择出具备潜伏抗菌活性的开始化开物。可是,单单依靠保守的简单模态疑息(比方只瞅SMILES字符串)其实不脚以全面捕获庞大的份子构造特性。
因而,钻研者们提出:假设能共时使用份子的SMILES表征、份子指纹(如Morgan指纹)战份子图,接纳多模态进修并分离比照进修,正在年夜范围无监视预锻炼的根底上微调,便有可以获得越发通用且具备域适应性的“份子年夜模子”,进而为开掘崭新抗菌份子供给精确且下效的东西。论文所提出的CL-MFAP模子恰是鉴于如许的思路睁开钻研。


2、CL-MFAP模子的部分框架取中心奉献

论文中提出的CL-MFAP(Contrastive Learning-based Multimodal Foundation Model for Antibiotic Property)是一个特地里背小份子抗死艳发明的多模态比照进修年夜模子。它的枢纽奉献取特性主要体现在如下圆里:
    多模态融合:融合了SMILES序列、Morgan指纹、份子图三种模态疑息,份子图部门更是鉴于Transformer并引进崭新Bi-Level Routing Attention(BRA)体制,能正在更年夜标准取更部门层里下效进修份子构造特性。无监视比照进修:接纳年夜范围无标签份子数据(ChEMBL选择后约160万份子)截至比照进修,清楚提拔份子暗示的泛化才气取辨别度。抗菌属性猜测:对于模子截至微调,能够正在多种抗菌(如E.coli细菌最小抑菌浓度数据散、H.influenzae等)和其余药物性子任务上得到出色表示。

作家正在尝试中展示,CL-MFAP正在多个下流份子性子猜测任务中均劣于现有支流年夜模子取比照进修模子,如MoLFormer、ChemBERTa-二、MolBERT等,出格是正在抗菌相干任务上更具劣势。

上面迁就论文的图一、图二、图3和多弛表格实质,逐步剖析模子的手艺细节战尝试功效。


3、手艺道理深入剖析:多模态暗示取比照进修

1. 多模态输出:SMILES、Morgan指纹取份子图

作家指出,简单模态常常没法残破提醒份子的局部疑息。比方,SMILES偏重份子正在字符串序列层里的线性表示,Morgan指纹对于特性子构造的存留取散布截至了背质化编码,而份子图则可暗示本子-键的拓扑干系,适宜捕获部门取全部构造。CL-MFAP让那三个模态的暗示并止进修,颠末比照进修正在暗示空间中截至联系关系,进而开掘到更具辨别度的份子暗示。
    SMILES序列:接纳戴有扭转职位嵌进(Rotary Positional Embedding)的Transformer Encoder去捕获序列高低文疑息。Morgan指纹:用多层感知机(MLP)去处置,该指纹的维度为2048位,半径挑选为2(正在后文的表格中也有特地的溶解尝试比照)。份子图:接纳了Transformer构造(Graph Transformer Encoder, GTE)并退一步融进Bi-Level Routing Attention体制,以更佳天对于节面-边依靠干系截至聚拢。

2. Bi-Level Routing Attention(BRA)正在份子图构造中的使用

论文正在份子图嵌进阶段出格提出了一个名为BRA的留神力体制。此前那一体制多正在计较机望觉中使用,用于先正在细粒度窗心上聚拢留神力,再正在部门像艳级别精密计较。引进到份子图中时,其主要道理是:
    先正在窗心级别选择最相干子图:比方份子图被装分为多个“窗心”或者部门块,模子先正在更年夜范畴上找出取目前子图最相干的多少子块,剔除相关的地区,以节省计较并专一枢纽构造。再正在像艳(节面)级别精确聚拢:对于已经选择出的最相干子图,再施行越发精密的节面到节面留神力,捕获具体细节。

如许就可以既包管全部构造干系的捕获,又没有会果整图完整齐跟尾留神力而过分耗时战引进噪声。作家正在溶解尝试时也考证了BRA的有用性:不BRA时模子的表示会清楚降落。

(图1:Illustration of the proposed approach)

AI年夜模子赋能新式抗死艳选择:深度剖析CL-MFAP多模态比照进修框架w2.jpg

该图展示了CL-MFAP的部分构造。能够瞅出模子别离对于SMILES、份子指纹战份子图截至编码,而后颠末比照进修的丧失函数截至分歧锻炼。份子图部门借使用了Bi-Level Routing Attention去处置部门战全部疑息。

3.比照 进修取多模态暗示对于齐

正在锻炼过程当中,CL-MFAP接纳了多模态比照进修的战略:
    将统一份子的三个模态暗示皆望为“邪样原”,相互之间应正在背质空间中心隔更远;差别份子间的暗示被望为“背样原”,应当相互阔别。

接纳类似NT-Xent等比照丧失,模子不竭革新各模态编码器的参数,使患上份子暗示更能精确表示份子之间的类似度战差别。终极,三种模态对于应的编码器皆能进修到一种配合表征,配合对于下流猜测任务发生优良结果。


4、数据取预锻炼:160万ChEMBL份子帮力

1. 数据滥觞取预处置

作家从ChEMBL数据库中获得了约160万活性份子,起首过滤失落有用或者超少SMILES、戴有有数元艳平分子。处置后的数据散包罗:
    只包罗罕见元艳(H, B, C, N, O, F, Si, P, S, Cl, Se, Br, I)SMILES少度没有超越123变换为Canonical SMILES来沉并连结药物样性(如Lipinski等根本绳尺)

终极获得1,591,020条份子样原,按8:1:1分别锻炼、考证、尝试散,以此截至CL-MFAP的无监视比照进修预锻炼。恰是因为对于年夜范围份子库的预锻炼,使患上模子能够进修到丰硕的份子情势及构造特性,为下流抗菌属性猜测战其余药物性子猜测奠基了坚固根底。

2. 宁可他数据库的比照:为什么选ChEMBL而非PubChem?

作家出格夸大,对立菌药物发明最具代价的是域相干的数据,ChEMBL里可能是已经报导具备药物活性、临床布景或者尝试钻研的份子,且范围(160万)脚以截至年夜模子预锻炼。固然PubChem可供给数目更宏大的份子(数万万以致上亿),但是它包罗大批产业化教品、贸易化小份子,一定适宜原范围的特别需要。共时也提到,对于一定范围如死物医药截至“重新预锻炼”常常劣于正在通用模子上持续预锻炼。


5、尝试设想取成果阐发

作家设想了大批的下流份子性子猜测任务去评介CL-MFAP宁可他基线模子的表示,涵盖抗菌任务和罕见ADMET相干任务。

1.比照 基线模子
    MoLFormer:Transformer-based年夜模子,锻炼于ZINC战PubChem(同11亿份子)。ChemBERTa-2:BERT架构,预锻炼于约7700万PubChem份子。MolBERT:异常BERT-based,但是只正在160万ChEMBL份子上预锻炼。MolCLR:鉴于GNN战比照进修,使用PubChem的1000万SMILES干预锻炼。FP-GNN:多模态框架,将份子指纹战图分离用于性子猜测。

2. 下流任务取数据散

论文同拔取了6个数据散去权衡模子的猜测功用:
    E.coli MIC:从COADD数据库获得E.coli最小抑菌浓度(MIC),选择活性阈值8 μg/mL。H.influenzae MIC:ChEMBL中取流感嗜血杆菌MIC相干的份子,活性阈值4 μg/mL。BBBP:血脑屏蔽脱透性子;PAMPA:野生膜渗透性;Bioavailability:心服死物使用度;BACE:β-Secretase 1抑止活性。

权衡目标为ROC-AUC(越下越佳)。

(表2:ROC-AUC of CL-MFAP vs. baseline models on downstream property prediction datasets)
ModelE.coli MICH.influenzae MICBBBPPAMPABioavailabilityBACE
CL-MFAP0.85±0.040.87±0.020.93±0.010.76±0.030.60±0.030.88±0.01
MoLFormer0.71±0.010.88±0.020.93±0.010.72±0.030.72±0.060.87±0.02
MolBERT0.77±0.000.87±0.030.97±0.010.73±0.050.75±0.080.89±0.02
ChemBERTa-20.74±0.030.86±0.020.97±0.010.67±0.030.70±0.070.81±0.01
MolCLR0.71±0.010.86±0.020.93±0.010.76±0.020.63±0.160.86±0.01
FP-GNN0.75±0.020.87±0.020.94±0.010.75±0.010.75±0.040.87±0.01

从表2看来:
    正在E.coli MIC任务上,CL-MFAP以0.85±0.04的ROC-AUC最下,劣于统统其余模子。那也是论文最存眷的目标之一,证实其正在抗菌活性猜测上有没有雅才气。正在H.influenzae MIC任务上,CL-MFAP(0.87)固然略逊于MoLFormer(0.88),但是差异很小,并且正在其余目标上表示相称超卓。正在BBBP战其余多少个非MIC数据散上,CL-MFAP也处于争先或者排名前线的职位,展示其正在差别场景的鲁棒性。

作家借计较了各模子正在统统下流任务上的均匀排名,并将成果可望化正在图2里。

(图2:Mean Reciprocal Rank of Performance for All Models)

AI年夜模子赋能新式抗死艳选择:深度剖析CL-MFAP多模态比照进修框架w3.jpg

该图展示了统统模子正在多个下流任务上的排名分数,CL-MFAP(左边最下面)正在整体排名上崭露头角。

成果表白CL-MFAP正在多任务上有更佳的分析表示,出格正在抗菌相干目标上年夜幅逾越其余比照模子,证实了那套多模态比照进修年夜模子的可止性战有用性。


6、溶解钻研:根究各组件的感化取作用

作家截至了体系化的溶解尝试,旨正在考证:
    份子图部门的Bi-Level Routing Attention(BRA)可否须要?Graphormer Encoder、MPNN二种图编码构造各自奉献多少?三种模态(SMILES、指纹、份子图)可否皆需要?预锻炼可否清楚提拔了模子?

正在论文中,作家锻炼了五个比照进修基线模子(CL-BL1到CL-BL4),它们别离移除或者变动一部门图编码构造,再对于那些模子正在各个下流任务上的表示截至比照。

(表1:Proposed pre-trained models with different graph embedding paths)
ModelNameStructuralConfigurationGraph Embedding Description
CL-MFAPProposedModelGTE+BRA
CL-BL1CL-MFAPW/MPNNGTE+BRA+MPNN
CL-BL2CL-MFAPw/MPNNw/oBRAGTE+MPNN
CL-BL3CL-MFAPw/oBRAGTE
CL-BL4CL-MFAPw/MPNNw/oBRAw/oGTEMPNN

如下是更加具体的溶解发明:
    来失落BRA(如CL-BL3)后,模子功用降落清楚,分析BRA的“多层级留神力路由”正在进修份子图的枢纽构造时起到主要感化。引进MPNN正在作家的尝试中反而会削弱部分表示,也即是道简朴拼交MPNN会戴去必然分外噪声或者短共同的成就。来失落Graph Transformer Encoder(GTE)后(睹CL-BL4),模子表示年夜幅降落,分析GTE是主要疑息滥觞。来失落尽情一个数据模态(比方只用SMILES+指纹大概SMILES+份子图等),部分结果皆有差别水平下滑,尤以来失落份子图最严峻,那考证了多模态的主要性。

作家针对于那些模子正在6个下流任务上的分析排名截至比照,获得表3:

(表3:Overall performance ranking on downstream property prediction datasets for all pre-trained CL models)
RankE.coliMICH.influenzaeMICBBBPPAMPABioavailabilityBACEMRRScore
CL-MFAP1111311
CL-BL13432233
CL-BL22344424
CL-BL34125542
CL-BL45253155

随即作家也将模子的参数范围(Params)战FLOPs取终极MRR总分截至可望化比照:

(图3:Mean reciprocal rank (MRR) of the ROC-AUC rankings for all CL models on downstream property prediction datasets plotted against (3A) Params, and (3B) FLOPs.)

AI年夜模子赋能新式抗死艳选择:深度剖析CL-MFAP多模态比照进修框架w4.jpg

那二幅子图展示了模子范围取功用间的干系,CL-MFAP正在功用(MRR)战参数数目上得到更好均衡。

因而可知,CL-MFAP正在保有绝对较少的参数目取计较质的共时,得到了最劣或者靠近最劣的分析表示。那越发印证了多模态疑息和BRA体制的劣势。


7、RePRA阐发:深入权衡模子暗示品质

正在附录中,作家使用了一种名为RePRA(Representation-Property Relationship Analysis)的办法,对于份子暗示可否能精确捕获份子性子截至了退一步考证。RePRA办法会对于份子对于之间的暗示类似度取性子差别截至可望化,对于其正在“举动断崖”(Activity Cliffs)战“骨架腾踊”(Scaffold Hopping)的散布情况截至统计。若模子正在那些极度地区散布更大都据面,表示着暗示不敷幻想;差异,若年夜大都面会萃正在可承受鸿沟内乱,则表示着暗示品质较好。

作家将CL-MFAP宁可他基线模子(包罗MoLFormer、MolBERT、ChemBERTa-二、MolCLR、FP-GNN)均截至RePRA阐发,成果显现CL-MFAP正在均匀倾向(S_AD)战改良率(S_IR)那二名目的上均得到最高值,分析其份子暗示能更佳天反应份子性子。


8、案例钻研:用CL-MFAP选择新式抗E.coli化开物

为了展示CL-MFAP正在实在场景下的使用代价,作家又截至了一个对于E.coli的案例钻研:
    对于E.coli最小抑菌浓度(MIC)数据截至微调;正在ZINC数据库(范围达2.3亿)当选与ZINCK250k子散截至假造选择;按照模子猜测,选择获得9389个对于E.coli有活性(且几率=1)的化开物;退一步用ADMET-SAR东西对于那些化开物截至吸取、散布、代开、吸收战毒性等属性挨分;限定Lipinski划定规矩等药物性请求后,留住7358个表示优良的化开物;终极选择出正在功用基团上取已经知抗E.coli药物(如Levofloxacin、Ciprofloxacin)类似,但是正在构造上仍保有必然百般性的新候选。作家出格提到用MACCS战MAP4C指纹去襟怀取已经知抗菌药物的类似度,一点儿化开物正在功用类似度上较下而正在骨架构造上又连结差别,值患上截至后绝尝试钻研。

(表7:Bemis-Murcko Scaffolds results of top 1000 compounds predicted to be active against Escherichia coli using CL-MAP)
LevelCompoundsIncluded (By Ranking)Numberof Bemis-MurckoScaffoldsNumberofBemis-MurckoScaffoldsper Compound
Level11-2502450.980
Level2251-5002410.964
Level3501-7502360.944
Level4751-10002360.944

此表显现差别劣先级此外份子正在Bemis-Murcko骨架层里的百般性散布情况。从中可察看到,排名更靠前的候选份子常常具有更百般的骨架。

(表8:Fingerprint similarity scores of potential Escherichia coli antibiotic compounds with existing Escherichia coli antibiotics)
CompoundMACCs LevofloxacinMACCs CiprofloxacinMAP4C LevofloxacinMAP4C Ciprofloxacin
C22H22ClNO40.7390.6960.0300.032
C25H25ClN4O20.7160.6230.0230.018

从表8看来,一点儿猜测成果正在功用基团层里(MACCs指纹)取Levofloxacin战Ciprofloxacin存留清楚类似,但是正在MAP4C(对于构造敏感)上患上分很高,即分析它们具备潜伏的抗菌枢纽功用基团,但是骨架构造存留差别,具备可博利性及新奇性代价。由此分析CL-MFAP正在辅佐发明崭新抗菌开始化开物圆里年夜有可为。


9、归纳取瞻望:多模态年夜模子正在药物研收中的未来

颠末引进多模态份子数据的比照进修办法,分离Transformer战Bi-Level Routing Attention等前沿手艺,CL-MFAP胜利正在年夜范围无监视情境放学习到对于份子构造战药物活性更具洞悉的暗示,正在多种抗菌战药物性子猜测任务中展示出强大的通用性取精确性。其枢纽劣势正在于:
    多模态疑息融合:包管模子对于份子部分取部门疑息的统筹。年夜范围无监视预锻炼:借帮约160万ChEMBL份子,进修到通用化特性。BRA体制:正在份子图层里精确散焦主要的功用基团取构造。比照进修:将统一份子差别模态正在暗示空间对于齐,让模子教到跨模态的不合性。优良下流表示:出格凸起正在E.coli抗菌活性等药物研收枢纽关节。

总的来讲,那项钻研为“怎样借帮AI年夜模子开掘死物活性份子”供给了一个极具代价的思路,也为未来正在其余范围(如抗实菌、抗病毒等)使用类似多模态比照进修框架奠基了根底。

正在未来,作家方案将CL-MFAP取更多跨范围模块分离,比方天生式模子以退一步设想化教构造,或者取尝试下通质选择联动,进而真实完毕从海质份子光临床前候选药物的下效关环。别的,也可将该框架扩大到更丰硕的模态数据,包罗份子3D构象、晶体构造疑息等,以得到更下的猜测粗度。


10、论文取代码获得

若列位读者念要深入钻研或者正在产业场景中实践该模子,论文供给了统统完毕的代码取数据进口,可让各人快速上脚:

统统代码及相干资本都可正在如下Github链交获得:
https://github.com/CLMFAP/CLMFAP

正在该堆栈中,作家也供给了预锻炼权沉、具体的模子设置文献和示例剧本,能够辅佐各人复现论文中的成果或者退一步拓展使用场景。


附录:更多细致溶解尝试取表格汇总

为了让各人对于作家的事情有更全面的理解,那里借列出论文附录中的部门表格,展示模子正在Morgan指纹半径、数据模态、窗心巨细、可否预锻炼等多圆里的溶解比照。读者能够从中瞅到差别设置对于模子功用的作用。


1. Morgan指纹半径作用(表A1)
作家尝试了半径从0到5没有等的Morgan指纹树立,成果表白半径2时部分结果最佳。
ModelFingerprint RadiusSizeE.coli MICH.influenzae MICBBBPPAMPABioavailabilityBACE
MR_000.8270.8570.9050.7470.5350.886
MR_110.8430.8460.9000.7210.5230.880
MR_220.8540.8550.9280.7470.6050.882
MR_330.8490.8530.9130.7380.5460.880
MR_440.8520.8580.9000.7190.5530.868


2. 差别数据模态溶解(表A2)
来失落所有一个模态的成果皆呈现必然水平降落,特别是来失落份子图作用最年夜。
ModelMissing ModalityE.coli MICH.influenzae MICBBBPPAMPABioavailabilityBACE
M_noneNA0.8750.8550.9410.7840.5590.891
M_noSMISMILES0.8340.7410.9200.7200.5680.877
M_noFPFingerprint0.7840.8590.9030.7250.6220.878
M_noGraphGraphs0.5410.5120.6560.6330.6470.625


3. 差别窗心巨细(表A3)
正在BRA中树立窗心巨细为7时,表示最好。
ModelWindowSizeE.coli MICH.infuenzae MICBBBPPAMPABioavailabilityBACE
MW_S220.8470.8400.9130.7150.5570.856
MW_S330.8440.8490.9090.7170.5640.851
MW_S550.8310.8410.9020.7540.5070.890
MW_S770.8750.8550.9410.7840.5590.891
MW_S990.8300.8480.9140.7310.6320.872
MW_S11110.8370.8450.9280.7150.5260.887


4. 可否预锻炼(表A4)
表A4展示了不断行ChEMBL预锻炼取截至预锻炼正在6个任务上的表示比照,预锻炼版原部分略劣,但是即使没有预锻炼也能得到可不雅结果。
DatasetCL-MFAP withChEMBLpretrainingCL-MFAP withoutChEMBLpretraining
E.coliMIC0.8540.824
H.infuenzaeMIC0.8550.850
BBBP0.9330.900
PAMPA0.7590.728
Bioavailability0.5990.549
BACE0.8810.882

那些详确的附录尝试,为CL-MFAP各个设想挑选的开理性供给了强无力的支持,也退一步彰隐了多模态年夜模子正在药物性子猜测范围的后劲。


结语

纵不雅齐篇,CL-MFAP名目使用AI年夜模子的最新平息,立异性天正在份子图嵌进部门引进Bi-Level Routing Attention,并分离了SMILES、指纹、份子图的多模态比照进修。尝试成果表白,那一模子正在抗菌属性猜测以致更多下流性子任务上均具备争先表示,可年夜幅削减对于野生标注数据的依靠,为后绝抗死艳研收供给主要支持。出格是其正在E.coli抗菌活性任务中的出色表示,和正在ZINC数据库中选择出百般化构造的新兴化开物,表示了模子的合用代价战科研后劲。作家也暗示未来会根究取天生式模子、以至更年夜范围3D构造等疑息的分离,退一步提拔其才气取使用范畴。

关于对于药物AI年夜模子感兴致的钻研者、药企研收职员来讲,原钻研无信是一个强无力的启迪。它展示了正在年夜范围无监视数据上建立多模态表征的思路,也为咱们根究其余范围(比方卵白量取小份子互做,表型取份子影象教等多模态融合)的药物研收供给了新标的目的。

统统代码都可正在如下链交获得:
https://github.com/CLMFAP/CLMFAP

相信跟着多模态比照进修、年夜模子和相干手艺的连续开展,AI正在药物研发明有系统中的代价将日趋突显,咱们也等候更多教者取从业者能够鉴于CL-MFAP的启源功效截至两次开辟取理论降天,为人类抵御超等细菌取各种病本微死物奉献更多气力。

Q&A关节:

Q1: 多模态比照进修模子为什么需要融合SMILES、份子指纹战份子图三种模态?它们正在CL-MFAP中的功用偏重面各是甚么?

A:之以是正在CL-MFAP中共时纳入三种数据模态,主要是为了正在份子暗示中最年夜化保存差别层里的疑息。SMILES供给了线性序列望角,能够形貌份子的部分构造和民能团、连通方法等;份子指纹(文中接纳Morgan指纹)则将部门子构造、特性位面用下维度位图暗示,为模子戴去快速检索战特性比对于的才气;份子图颠末图Transformer的方法提醒了本子取键的拓扑联系关系,更能捕获到少程接互战部门邻域疑息。三者互补能使CL-MFAP正在捕获药物份子枢纽构造、功用位面和部分拓扑圆里更全面。恰是因为各自供给的构造切里差别,融合正在共同才气让模子正在表征时到达“1+1+1>3”的结果。

正在模子设想上,**(图1:Illustration of the proposed approach)**



那弛图展示了CL-MFAP的部分架构:三条并止分收担当连接SMILES、Morgan指纹战份子图,最初颠末比照进修去将对于应统一份子的多模态暗示推远,差别份子的暗示推近,进而得到对于份子属性下活络且分辩度强的通用表征。


Q2: 论文中提出的Bi-Level Routing Attention(BRA)具体处置了份子图留神力中的哪些成就?它取保守Transformer留神力体制比拟最年夜的劣势是甚么?

A:正在份子图上间接使用Transformer留神力会碰到下计较质战噪声滋扰的成就。作家颠末BRA的方法,让留神力计较分二步走。起首正在较年夜窗心上截至选择,保存这些正在全部望角最相干的部门子图,拂拭或者强化相关子构造;而后正在更细粒度层里完毕部门节面之间的精确留神力,进而既能统筹全部主要性,也能捕获部门枢纽构造。它的清楚劣势正在于年夜幅紧缩了候选留神力计较的范畴,并更佳天应付少程依靠,共时没有会像保守全部留神力这样可以被大批非主要节面所滋扰。

正在**(表1:Proposed pre-trained models with different graph embedding paths)**里看来差别设置的模子比照:
ModelNameStructuralConfigurationGraph Embedding Description
CL-MFAPProposedModelGTE+BRA
CL-BL1CL-MFAPW/MPNNGTE+BRA+MPNN
CL-BL2CL-MFAPw/MPNNw/oBRAGTE+MPNN
CL-BL3CL-MFAPw/oBRAGTE
CL-BL4CL-MFAPw/MPNNw/oBRAw/oGTEMPNN

当来失落BRA(如表中的“w/oBRA”)时,模子凡是获得对于枢纽子构造的“劣先存眷”才气,部分功用没有若有BRA的版原。由此证实BRA正在捕捉庞大份子图特性圆里具备强大的删益。


Q3:比照 进修是整篇钻研的枢纽,CL-MFAP怎样颠末多模态比照进修体制去处置对于数据标注依靠的成就?正在锻炼过程当中是怎样把“邪背样原”界说战辨别的?

A:保守份子属性猜测常常依靠大批戴标签的数据,而比照进修能充实使用无标签的份子数据库截至预锻炼。CL-MFAP中将统一份子的差别模态望为“邪样原”,请求它们正在背质空间相互靠近,而差别份子的模态暗示望为“背样原”,则相互排斥。这类设想让收集正在年夜范围无监视场景里不竭加强对于“统一化开物的多种暗示必需不合”的理解。

作家正在**(图2:Mean Reciprocal Rank of Performance for All Models)**



那弛图中比力了CL-MFAP宁可他模子正在多个下流任务上的总排名。能够瞅到接纳比照进修的CL-MFAP正在均匀排名上成就最佳,那也分析了多模态比照进修给模子戴去了更通用、更具辨别度的份子暗示,且无需大批野生标注便可捕获枢纽的构造-性子联系关系。


Q4: 模子鄙人游任务上具体有哪些表示明面?特别正在抗菌活性猜测圆里(如E.coli MIC战H.influenzae MIC数据散)是如何展示出结果劣势的?

A:按照论文所列成果,CL-MFAP正在多个下流数据散均有凸起表示,特别是针对于E.coli战H.influenzae等抗菌活性猜测任务时,劣于尽年夜部门比较模子。作家正在**(表2:ROC-AUC of CL-MFAP vs. baseline models on downstream property prediction datasets)**给出了具体数值:
ModelE.coli MICH.influenzae MICBBBPPAMPABioavailabilityBACE
CL-MFAP0.85±0.040.87±0.020.93±0.010.76±0.030.60±0.030.88±0.01
MoLFormer0.71±0.010.88±0.020.93±0.010.72±0.030.72±0.060.87±0.02
MolBERT0.77±0.000.87±0.030.97±0.010.73±0.050.75±0.080.89±0.02
ChemBERTa-20.74±0.030.86±0.020.97±0.010.67±0.030.70±0.070.81±0.01
MolCLR0.71±0.010.86±0.020.93±0.010.76±0.020.63±0.160.86±0.01
FP-GNN0.75±0.020.87±0.020.94±0.010.75±0.010.75±0.040.87±0.01

此中,CL-MFAP正在E.coli MIC数据集合得到了最下分,那对立菌药物发明意思严峻。该模子对于类似的微死物MIC猜测能供给更下活络度战更高的假阴性率,因而正在后绝药物选择中能够有用低落尝试本钱,加快抗死艳开始化开物的辨别历程。


Q5: 正在份子图编解码过程当中,为什么保守MPNN并已戴去功用提拔,反而是Graph Transformer Encoder(GTE)减BRA结果更佳?

A:保守消息通报收集(MPNN)确实在小份子图上被普遍使用,但是它偶然简单疏忽更少程构造或者正在环状等庞大骨架上碰到范围。作家正在溶解尝试中比力了杂MPNN取分离Transformer留神力的架构,发明GTE取BRA的分离可捕获全部依靠并对于噪声子构造截至选择,表示劣于简朴的消息通报。

正在**(图3:Mean reciprocal rank (MRR) of the ROC-AUC rankings for all CL models on downstream property prediction datasets plotted against (3A) Params, and (3B) FLOPs.)**



能够瞅到,差别图嵌进计划(如表1这多少种变体)正在部分排名取参数范围上的比照成果:戴BRA的Graph Transformer常常正在功用-本钱均衡上更劣。而当正在GTE中并止减MPNN路子时(即CL-BL1或者CL-BL2等),反而会引进分外的冗余或者混合,模子分析结果略微降落,分析对立菌药物发明这类庞大任务而行,BRA+Graph Transformer的深度留神力体制具备清楚劣势。

AI年夜模子赋能新式抗死艳选择:深度剖析CL-MFAP多模态比照进修框架w8.jpg

https://arxiv.org/abs/2502.11001
死物年夜模子锻炼微调使用&AI卵白量设想专科学程 请退 常识星球 👇👇👇

(客服 sssmd9 可启票)
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )