————————————
独野收拾整顿,匪用必究
正在现今死物医教范围,使用野生智能(AI)取年夜模子去破译基果组序列取人类庞大性状或者徐病危急之间的干系,已经成为一项煊赫一时的钻研标的目的。特别针对于非编码区位面的功用猜测,更是对于机械进修战深度进修办法提出了弘大挑战。克日,一篇题为“Benchmarking DNA Sequence Models for Causal Regulatory Variant Prediction in Human Genetics”的钻研事情(作家:Gonzalo Benegas, Gokcen Eraslan, Yun S. Song 等)戴去了崭新的非编码变同基准数据散——TraitGym。它涵盖了对于 113 种孟德我性状取 83 种庞大性状的非编码调控位面的精密标注及严峻匹配的比较,并对于目前各种最新的功用基果组监视模子、退步自监视DNA年夜模子和多种调整式办法(如CADD)截至了体系深入的比照战评介。该事情不但提出了新的大众数据资本战基准评测框架,借从多种手艺门路深入根究了怎样有用天猜测非编码地区的果因变同,为AI年夜模子正在基果组教中的具体使用再加芒刃。上面,原文将以手艺取道理为中心,分离作家团队供给的丰硕图表,具体剖析那项钻研的思路、尝试、成果取意思,并正在开端附上残破的代码战模子下载链交,供读者深入进修取复现。
第一部门:钻研布景取挑战
那项事情散焦于使用机械进修或者深度进修的办法去猜测哪些非编码位面会果改动转录调控或者其余功用而招致人类表型(徐病或者性状)发作清楚变革。不竭此后,因为非编码地区缺少间接的卵白量翻译成果,钻研者面临茫茫基果组时易以分辨哪些变同具备真实的功用作用。AI年夜模子的鼓起,为从海质序列取功用组教数据中提炼旌旗灯号戴去了崭新的可以性。可是,目前仍存留如下枢纽挑战:
下品质数据缺少:比拟编码区的致病变同,非编码区的果因性凭证常常更少,且标注常常没有不合或者仅为强假定。模子品种繁琐:今朝存留功用基果组监视模子、演变自监视DNA年夜模子和调整各类正文特性的典范模子(如CADD)等多种门户,每一种模子皆声称正在一定任务上有没有错表示,但是怎样正在统一套数据上体系比力,是一个火急的需要。庞大性状易度下:孟德我性状常由单基果或者大都基果突变清楚致病,因而正在计较猜测上绝对简单;而庞大性状涉及多基果多位面,单个位面结果微小,猜测取果武断定更具挑战。
针对于那些困难,作家团队建立了名为TraitGym的公然基准数据散,普遍汇集并严峻选择了果因或者下可托度调控变同,辅以经心匹配的比较变同,为多种开始退模子供给了分歧的测评情况。
第两部门:数据散TraitGym的建立取特性
钻研者起首将数据散分别为二个部门:一个特地用于孟德我性状,另外一个特地用于庞大性状。每一个部门均包罗一批“拉定果因变同”(positives)和严峻匹配的“比较变同”(negatives)。作家之以是这样干,主要是因为孟德我性状常果突变位面有数且效力弘大,而庞大性状变非常绝对更罕见、效力也更微小,因而前者取后者正在算法识别的易度取旌旗灯号特性上存留清楚差别。
按照表1(本文Table 1)所示:
Dataset | Putatively causal variants | Total variants | Traits | Mendelian traits | 338 | 3,380 | 113 | Complex traits | 1,140 | 11,400 | 83 |
正在孟德我性状数据集合,作家汇集了 338 个非编码果因变同取合计 3380 个变同(每一个果因变同匹配 9 个比较),涉及 113 种差别的孟德我性遗传徐病;而正在庞大性状数据集合,包罗 1140 个拉定果因变同,统共 11400 个变同(对于应 83 种庞大性状),异常根据每一个邪例配 9 个比较的绳尺截至匹配。值患上留神的是,那些比较正在基果组职位、变同频次、LD分数、可否位于下流下流区等方方面面,皆取响应的果因变同十分靠近,以免模子颠末非死物教旌旗灯号(如MAF清楚差别)截至做弊。
为了退一步帮助阐发,那些变同皆颠末了具体的基果组正文,包罗突变结果(比方中隐子内乱/中、UTR、下流/下流等)和可否降正在ENCODE 名目的定的 candidate cis-regulatory elements (cCRE) 地区或者其双侧 500 bp 中。正在文中,作家也统计了图4(本文Figure 4)所示那批变同正在差别非编码结果种别中的散布:
图4(本文Figure 4)
该图展示了拉定果因变同正在具体转录结果范例(consequence class)中的散布情况。看来关于庞大性状,尽年夜部门果因变同位于基果近端非中隐子地区(76%),而孟德我性状傍边仅约 10% 是近端变同,其余多为绝对靠近基果的调控区。
图3(本文Figure 3)
那幅图明了展示了作家对于每一个拉定果因变同怎样截至“九选一”匹配比较的历程。以统一条染色体范畴为条件,掌握变同取果因变同正在距离转录肇端位面、变同范例和MAF、LD 分数(关于庞大性状而行)类似后,进而包管比较取邪例之间正在根底统计上散布靠近。
如作家指出,如许的匹配战略使患上纯真依靠MAF或者LD分数就可以辨别果因变同战比较变同的可以性极年夜低落,越发查验模子对于功用教或者退步教旌旗灯号的捕捉才气。
第三部门:所评测的多种AI年夜模子宁可他办法
作家将目前支流的DNA序列模子大抵分为三年夜类,并正在表2(本文Table 2)中截至了概括:
Model | Dependencies | Params | Context size | Extracted Source features |
|
| Functional genomics | Alignment | Population data |
|
|
|
| Functional-genomics-supervised models | Enformer | Yes | No | No | 246M | 196K | 5,138 | Avsec et al. (2021) | Sei | Yes | No | No | 890M | 4K | 41 | Chen et al. (2022) | Borzoi | Yes | No | No | 186M | 524K | 7,617 | Linder et al. (2025) | Self-supervised models | GPN-MSA | No | Yes | No | 86M | 128 | 770 | Benegas et al. (2025a) | NT | No | No | No | 2.5B | 6K | 2,562 | Dalla-Torre et al.(2024) | HyenaDNA | No | No | No | 14M | 160K | 258 | Nguyen et al. (2023) | Caduceus | No | No | No | 8M | 131K | 514 | Schiff et al. (2024) | SpeciesLM | No | No | No | 97M | 2K | 770 | Tomaz da Silva et al. (2024) | AIDO.DNA | No | No | No | 7B | 4K | 4,354 | Ellington et al.(2024) | GPN-Promoter | No | No | No | 152M | 512 | 1,026 | This work | Integrative models | CADD | Yes | Yes | Yes | N/A | N/A | 114 | Schubach et al. (2024) |
功用基果组监视模子(Functional-genomics-supervised models):如 Enformer、Sei、Borzoi 等,它们颠末海质的功用组教尝试数据截至监视锻炼,能够猜测DNA序列对于一定表不雅或者转录特性(如染色量可及性、构造尤其性转录水平等)的作用。自监视DNA年夜模子(Self-supervised DNA language models,简称gLM):如 GPN-MSA、NT、HyenaDNA、Caduceus、SpeciesLM、AIDO.DNA、和作家新提出的 GPN-Promoter 等,那些模子凡是只鉴于大批基果组序列自己截至自监视进修,部门模子(如GPN-MSA)借使用跨物种比对于的守旧性疑息去进修。调整式模子(Integrative models):最典范代表是 CADD,分离了功用基果组特性、退步守旧性和集体遗传教疑息,再用逻辑返回截至锻炼,供给一个分解挨分。
正在表3(本文Table 3)中,作家借枚举了那些模子怎样截至变同挨分(zero-shot)或者特性提炼:
Model type | Extractedfeatures | Zero-shotscore | Functional-genomics supervised (Enformer/Borzoi) | l2 scores:change in activityin each track l2 of l2 scores: aggregation of l2 scores across several tracks (all + within each assay type) | l2 of l2 scores (all tracks) | Functional-genomics supervised (Sei) | Change in sequence class scores | Max absolute change in sequence class scores | Self-supervised | LLR, abs(LLR) Embeddings inner product for each hidden dimension | LLR, abs(LLR) Embeddings inner product,l2dis- tance,cosine distance | Integrative | CADD input features,CADD score | CADD score |
简而行之,差别模子会供给差别的输出或者潜伏背质去度量变同的潜伏功用作用。关于功用基果组监视模子,它们能够输出多个表不雅或者表示相干track正在突变先后的猜测值差别,再截至各类聚拢;而自监视gLM普通通过比力参照等位基果取交流等位基果的对于数似然或者背质类似度去权衡突变的有数性或者没有天然性;而CADD自己是一种散成生齿统计、对于齐守旧性、和其余正文特性的模子,最初患上出一个分析挨分。
第四部门:尝试成果取发明
为了充实使用TraitGym数据散,作家起首正在每一个染色体上干留一法,即用除该染色体中的数据截至锻炼(或者间接用模子的整样原评分),正在该染色体上评介表示。主要的评介目标是PR直线上面积(AUPRC),因为邪背例比率下度不服衡。关于每一个染色体患上出的AUPRC成果,再减权兼并成整体表示。作家借分外陈述了AUROC等目标,并对于各类模子的整样原挨分或者颠末线性分类器“微调”后的功用截至了体系评测。
正在孟德我性状上: 作家正在图5(本文Figure 5)中给出了结因:
图5(本文Figure 5)
该图比照了统统模子正在整样原(zero-shot)战线性探针(linear probing)战略下对于孟德我性状取庞大性状的猜测AUPRC。能够瞅到,关于孟德我性状,CADD取GPN-MSA的整样原评分争先,若再使用CADD本初输出特性锻炼一个线性模子,则能够退一步到达最下水平。
作家指出,GPN-MSA取CADD皆隐式使用了跨物种序列比对于或者守旧性疑息,那正在孟德我病果因突变的检测中尤其有用。而功用基果组监视模子(如Borzoi取Enformer)和不该用对于齐疑息的自监视模子(如NT, HyenaDNA等)略逊一筹。
正在庞大性状上: 从图5(Figure 5)看来,整体猜测易度更下,AUPRC数值遍及降落。整样原情势下,CADD取GPN-MSA仍然有没有错表示,但是假设对于功用基果组监视模子(如Enformer、Borzoi)的track输出干线性分类器锻炼,则它们能够到达以至超越CADD/GPN-MSA的水平,特别是Borzoi正在微调后表示相称凸起。
齐基果组扩大评测: 作家借正在更年夜范围的数据上,对于CADD战GPN-MSA干了分外尝试,论断类似:正在孟德我性状上GPN-MSA略胜,正在庞大性状上CADD更颠簸,但是部分AUPRC没有下,分析该任务自己具备挑战性。
模子融合: 作家测验考试将功用基果组模子(Borzoi)的输出特性、自监视对于齐模子(GPN-MSA)的内部表征,和CADD的大批正文特性三者截至拼交,颠末一个线性分类器截至锻炼。成果正在庞大性状数据长进一步进步了功用,分析差别门路的模子确实捕捉到了部门互补的疑息。但是正在孟德我数据散上,因为数据范围较小,融合后纷歧定比简单CADD特性更下,需要正在小样原上严防过拟开。不外作家也提到,能够用一种沉质融合,仅将CADD患上分取Borzoi或者GPN-MSA的一个枢纽挨分拉拢,仍然能正在小数据下戴去必然支益。
分种别阐发:
从图8(Figure 8)看来,作家别离按变同结果(远端、近端、UTR 等)、病品种型(徐病 vs 非徐病)和可否为多效性变同等维度截至装分阐发。比照度最下的是庞大性状中近真个非中隐子变同最易猜测,徐病取多效性位面绝对简单。Enformer、Borzoi等功用基果组监视模子正在这些真实作用表示或者染色量可及性的位面上更加敏感,但是关于很近的增强子地区,猜测仍具必然挑战。自监视对于齐模子能够更佳天捕捉守旧地区变同的功用作用,因而关于强挑选压力下的致病位面十分无力。
CADD特性解读: 为了退一步理解CADD为什么表示凸起,作家正在表4(本文Table 4)中展示了其最具猜测力的特性正在差别种别(退步守旧性、功用组教、集体教)下的零丁表示:
Dataset | Category | Feature | AUPRC | Description | Mendeliantraits | Alignment | ZooVerPhyloP | 0.673 | Conservationinma妹妹als | Functionalg genomics | EncodetotalRNA-max | 0.348 | Max. RNA-seq level | Population data | Freq100bp | 0.509 | # co妹妹on variants within 100bp | Complextraits | Alignment | ZooPriPhyloP | 0.225 | Conservationinprimates | Functionalg genomics | EncodeDNase-max | 0.145 | Max. DNase-seq level | Population data | - Freq10000bp | 0.131 | # co妹妹on variants within 10kb |
邪如成果显现,关于孟德我性状,哺乳植物级此外守旧性(ZooVerPhyloP)是最具猜测力的简单特性;而关于庞大性状,灵少类守旧性(ZooPriPhyloP)也排正在前线,但是特性自己的AUPRC值已经清楚降落。那考证了孟德我致病位面常常受到强挑选压力,而庞大性状作用位面分离且效力小,简单特性很易弄定。
Borzoi特性注释: 取CADD偏重对于齐战正文差别,Borzoi等功用基果组模子能够输出一定构造或者细胞范例下的表不雅或者转录活性猜测,进而提醒突变正在具体死物教情况下的作用。图9(Figure 9)展示了Borzoi正在差别表不雅数据聚拢下的表示:
图9(本文Figure 9)
看来RNA战CAGE等转录像闭特性正在孟德我性状中奉献最年夜,而关于庞大性状,ATAC、ChIP、DNase等表不雅特性相干性更强。作家阐发觉得,近端增强子正在庞大性状中的比严峻,而那些地区正在调控水平上更容易颠末染色量可及性或者转录果子分离等情势反应进去。
第五部门:作家新提出的GPN-Promoter年夜模子
正在自监视DNA年夜模子范围,作家正在文章中分外介绍了一款名为GPN-Promoter的模子,旨正在颠末仅正在各物种启用子地区截至锻炼去加强其正在调控区段的猜测才气。它接纳了战GPN类似的思路,但是数据只去自434种植物物种基果组的转录肇端位面四周的512 bp序列,测度可让模子散焦于调控最中心的Promoter地区。作家正在文中指出,GPN-Promoter固然模子参数目没有算年夜,但是正在猜测5’UTR或者远端变同时常常劣于不“地区专一”的其余模子。图8(Figure 8)中的分范例阐发也显现,这类模子正在靠近TSS的地区有更佳的表示,但是关于近真个非编码变同结果无限。
值患上一提的是,那些成果对于后绝钻研颇有启迪:自发扩大高低文或者删年夜模子范围其实不必然戴去最佳结果,专一公道的死物地区也能戴去清楚支益。
第六部门:模子取特性融合的后劲
正在图6(Figure 6)战图7(Figure 7)中,作家重心展示了各类模子或者特性的融合给猜测功用戴去的删益。
图6(本文Figure 6)
那里作家对于Borzoi局部track特性、GPN-MSA的embedding战对于数似然,和CADD输出特性取输出挨分截至年夜拼交,用线性返回分类器锻炼。成果正在庞大性状数据散上有清楚提拔;但是正在孟德我性状上因为数据质小可以过拟开,提拔无限。
图7(本文Figure 7)
此处作家采纳沉质级融合,只拔取CADD患上分取Borzoi的“l2 of l2 scores”和GPN-MSA的对于数似然分值干特性,较年夜水平制止下维度特性戴去的过拟开危急,仍然能戴去比较颠簸的功用提拔。
那些尝试显现,多模态或者多战略疑息的分离能够充实阐扬差别模子正在功用基果组、守旧性战集体教特性上的互补,特别正在庞大性状上为未来的猜测办法供给了一条明了可止的散成计划。
第七部门:弥补成果取办法细节
作家正在附录中给出了大批的弥补数据战图表。如下枚举此中一部门重心,并取对于应的弥补图表(Supplementary Figures)或者表格(Supplementary Tables)对于应分析:
当搁严或者支松对于孟德我性状变同的MAF阈值时,成果根本不合。详睹弥补图 S1(下文中说起)。假设正在匹配时再也不按染色体而是按基果去匹配邪背变同,会招致部分数据范围紧缩,但是仍然连结了类似的趋势。详睹弥补图 S二、S5 等。作家也尝试正在数百万范围的比较上评介GPN-MSA取CADD,并正在弥补图 S7 中给出了结因。下保实比较戴去了更细微的比照,但是整体仍契合前文论断。
为了只管展示本文的残破性,那里列出弥补图 S1~S8 的链交,便利读者比较:
弥补图S1
弥补图S2
弥补图S3
弥补图S4
弥补图S5
弥补图S6
弥补图S7
弥补图S8
取此共时,作家也显现了大批的附表S1~S11,为咱们供给了对于数据分层、模子对于简单性状表示、各结果种别散布等的残破疑息。好比:
表S1:列出统统被回为徐病或者阻碍的庞大性状。表S2, S3:别离列出所采用的非编码结果及ENCODE cCRE范例。表S4:展示怎样匹配后仍然包管那些特性(TSS distance, MAF, LD等)正在邪背例间没法简朴辨别。表S5:各模子正在Hugging Face上的下载路子。表S6:GPN-Promoter模子的超参数疑息。…等等。
如许的弥补质料极地面辅佐钻研者理解TraitGym数据建立取评介关节的细节,也为退一步深入使用取复现供给了保证。
第八部门:归纳取启迪
作家正在文终会商中提到,TraitGym供给了一个新的分歧仄台,去体系比力非编码变同果因猜测任务中最尖真个AI模子战年夜模子。成果显现:
正在孟德我性状上,退步守旧性占主宰职位。GPN-MSA战CADD表示争先,那宁可对于守旧性疑息的深度使用息息相关。正在庞大性状上,功用基果组监视模子取对于齐类模子皆有可与的地方,且特性融合常常能戴去清楚删益。特别Borzoi正在大批表不雅数据的撑持下,对于近端调控变同有更强的捕获才气;CADD正在守旧度取集体教层里依旧具代价,GPN-MSA则夸大跨物种守旧性。专一锻炼一定地区(如GPN-Promoter)能正在远端调控变同上得到优良结果,也提醒咱们不克不及一味贪年夜,应当分离死物教先验疑息截至数据定背使用。多模态调整是趋势。不管是将功用组教、对于齐守旧性仍是生齿遗传教疑息融合,皆展示了互补劣势。未来或者可测验考试更多深度融合收集,而非简朴线性减权。
最初,作家夸大了TraitGym的范围性:它主要集合正在已经知或者下可托度的非编码变同和基果调控任务,因而不克不及笼盖统统可以的死物教体制。但是关于DNA序列模子的年夜范围基准而行,它无信是当下罕见的、专一于实在人类调控变同的下品质资本。
合用疑息:数据取模子启源地点
为了便利社区接纳取复现,作家正在文终给出了TraitGym取GPN-Promoter的具体启源链交,且供给了Colab Notebook及Leaderboard页里,可正在多少分钟内乱完毕模子的评介。如下是枢纽地点:
TraitGym数据散
https://huggingface.co/datasets/songlab/TraitGym
和民间Leaderboard:
https://huggingface.co/spaces/songlab/TraitGym-leaderboard
GPN-Promoter模子
https://huggingface.co/songlab/gpn-animal-promoter
GPN-Promoter锻炼数据
https://huggingface.co/datasets/songlab/gpn-animal-promoter-dataset
TraitGym代码堆栈
https://github.com/songlab-cal/TraitGym
有兴致的教者或者开辟者可颠末以上地点快速测验考试将自己的模子取TraitGym连接,或者退一步正在GPN-Promoter的根底上截至改良。
附带:主要图表纵览取简述
图1(本文Figure 1)
展示了基果型到表型的干系,并以圆环或者箭头方法暗示怎样从DNA序列到份子功用(比方转录活性)再到表型,和退步挑选的到场。该图也归纳综合了鉴于功用基果组数据的监视进修取鉴于退步守旧性疑息的自监视进修。
图2(本文Figure 2)
抽象比照了孟德我性状取庞大性状的基果变同作用情势:前者常常由单个突变就可以决定性状,然后者需要多个突变、多个基果配合作用。
前文已经列出了图三、图四、图五、图六、图七、图8、图9,列位读者可分离本文对于应解读。那里再也不赘述。
正在Supplementary部门也包罗表S1~表S11,取以前引用不合。作家正在此中对于ClinVar及其病致变同范例散布,Hugging Face模子URL,GPN-Promoter超参数等等干了细致分析。
齐文归纳:AI年夜模子促进非编码变同钻研的新范式
综上所述,那项由Benegas等人完毕的钻研,为非编码基果组变同的果因猜测供给了一个下品质、分歧且范围适中的基准数据散TraitGym,并鉴于该基准对于今朝罕见的各种AI年夜模子(功用基果组监视、跨物种自监视、调整多正文等)干了细致的比力。成果表白,针对于相同性状种别,模子需要统筹守旧性、功用组教和生齿层里多种特性,才气得到最劣的分析结果。而对于这些真实枢纽的、有数的非编码突变位面,咱们特别需要深度开掘演变守旧性战具体构造/细胞范例下的静态调控情势。
该事情对于未来依靠AI年夜模子开掘人类基果组功用、剖析有数病取庞大病的遗传体制具备主要借鉴意思。它突显了如下多少面:
第一,下品质数据基准极端枢纽;只需正在严峻匹配的邪背例上才气拂拭简朴统计相干的滋扰,真实磨练模子的死物教洞悉力。
第两,多模态融合无信是此后的趋势,特别正在庞大性状猜测中需要调整多个角度的疑息。
第三,专一的地区性数据取锻炼有后劲成为一种主要弥补,而没必要一味寻求齐基果组海质参数。
第四,可注释性对于医教使用相当主要;像CADD、Borzoi等模子皆撑持装解差别特性奉献,辅佐咱们理解为什么突变正在某个构造中更具功用效力。
作家颠末TraitGym取GPN-Promoter供给了一个残破且易上脚的启源处置计划,也等候更多钻研者鉴于此拓展:不管是研收更年夜的语言模子、或者测验考试新的变同挨分办法、仍是增加新的功用组教数据,均可以有一个配合的基准参考面去权衡改良情况。
参照链交:
TraitGym数据散取Leaderboard:
https://huggingface.co/datasets/songlab/TraitGym
https://huggingface.co/spaces/songlab/TraitGym-leaderboard
GPN-Promoter模子:
https://huggingface.co/songlab/gpn-animal-promoter
GPN-Promoter数据散:
https://huggingface.co/datasets/songlab/gpn-animal-promoter-dataset
论文取代码堆栈:
https://github.com/songlab-cal/TraitGym
原事情用其翔真的数据收罗过程、丰硕的图表取比照尝试,和对于各种年夜模子的深入解读,让咱们瞅到了AI取年夜模子正在基果组非编码变同钻研中的宽广远景。取此共时,它也为后绝改良战立异供给了明了的钻研思路。关于有志于正在死物医教AI范围年夜展技艺的钻研者而行,那无信是一项值患上深入进修、重复揣测的里程碑式奉献。相信跟着更多多组教数据战更庞大收集的参加,咱们势必连续提拔对于人类基果组调控收集的剖析才气,为精确医教时期挨下更坚固的根底。
Q&A关节:
Q1:TraitGym 数据集合为何要正在每一个拉定果因变同四周经心匹配 9 个比较变同?有甚么手艺道理支持?
A:中心启事正在于钻研者期望保证邪背样原正在枢纽统计特性上散布类似,制止模子用到没有相干的简朴统计差别去鉴别。好比,针对于庞大性状,匹配时会思考染色体职位、变同结果种别、取转录肇端位面的距离、等位基果频次和LD分数等多个维度。如许能够把核心搁正在真实的功用教或者退步教旌旗灯号上,进而越发精确天评介模子识别果因调控变同的才气。正在图3(本文Figure 3)
里,作家抽象展示了那一匹配历程:关于每一个拉定果因变同,城市根据染色体、变同结果、转录肇端位面距离以致其余统计目标干精确匹配,进而汇集九个比较变同。如许能够最年夜水平削减简朴统计因素对于模子功用构成的作用。这类精密匹配战略正在机械进修钻研中十分罕见,用于来除模子锻炼或者评介时可以呈现的倾向,实在查验模子对于真实功用旌旗灯号的捕捉才气。
Q2:正在该钻研中,自监视年夜模子(如GPN-MSA、NT 等)取功用基果组监视模子(如Borzoi、Enformer)正在道理上有何差别?它们的手艺出力面各是甚么?
A:功用基果组监视模子的中心正在于以大批尝试测患上的功用组教数据(如RNA测序、染色量可及性、转录果子分离等)动作标注,间接进修“序列–功用”映照。好比Borzoi战Enformer能够输出数千条差别表不雅或者表示track的猜测值,并按照参照等位基果取交流等位基果之间的猜测好去质化变同作用。比拟之下,自监视模子(gLM)常常是颠末“序列自己”或者“多物种序列比对于”的守旧性疑息去进修序列的统计散布纪律,模子锻炼时其实不依靠内部尝试测定的功用标签。正在表2(本文Table 2)中,作家从依靠数据范例、模子参数范围、高低文少度等多维度对于那二类办法干了体系比照:
Model | Dependencies | Params | Context size | Extracted Source features |
|
| Functional genomics | Alignment | Population data |
|
|
|
| Functional-genomics-supervised models | Enformer | Yes | No | No | 246M | 196K | 5,138 | Avsec et al. (2021) | Sei | Yes | No | No | 890M | 4K | 41 | Chen et al. (2022) | Borzoi | Yes | No | No | 186M | 524K | 7,617 | Linder et al. (2025) | Self-supervised models | GPN-MSA | No | Yes | No | 86M | 128 | 770 | Benegas et al. (2025a) | NT | No | No | No | 2.5B | 6K | 2,562 | Dalla-Torre et al.(2024) | HyenaDNA | No | No | No | 14M | 160K | 258 | Nguyen et al. (2023) | Caduceus | No | No | No | 8M | 131K | 514 | Schiff et al. (2024) | SpeciesLM | No | No | No | 97M | 2K | 770 | Tomaz da Silva et al. (2024) | AIDO.DNA | No | No | No | 7B | 4K | 4,354 | Ellington et al.(2024) | GPN-Promoter | No | No | No | 152M | 512 | 1,026 | This work | Integrative models | CADD | Yes | Yes | Yes | N/A | N/A | 114 | Schubach et al. (2024) |
自监视模子凡是善于捕捉守旧性疑息,而功用基果组监视模子能够间接联系关系到死物教尝试轨迹。它们各擅长处,合用于差别的变同范例取情境。
Q3:为什么像 CADD 战 GPN-MSA 那些强力模子正在孟德我性状猜测中常常劣于功用基果组监视模子?
A:因为年夜大都孟德我性突变常常有数且正在退步汗青中受到较强的背背挑选,具备下守旧性特性。CADD分析了守旧性、功用组教正文战集体教统计去锻炼挨分,GPN-MSA则使用跨物种序列比对于疑息对于退步守旧位面极其敏感。因而当孟德我性状变同正在守旧地区呈现时,那二类模子捕捉到的旌旗灯号最为清楚。
正在图5(本文Figure 5)
能够直觉瞅到:对于孟德我性状而行,CADD取GPN-MSA整样原挨分的表示便下于其余模子,而一朝再鉴于CADD丰硕的输出特性截至线性分类器锻炼,表示退一步提拔。那分析下守旧性的有数突变正在这种以退步或者分解正文为特性的模子中更易被识别。
Q4:为何正在庞大性状上,功用基果组监视模子(如 Borzoi、Enformer)颠末线性分类器微调后常常得到更佳成就?那些模子鉴于甚么手艺劣势?
A:庞大性状的变同作用常常分离、效力较小,更夸大正在具体细胞范例或者构造下对于转录调控的微小改动。因而,功用基果组监视模子能够使用笼盖齐基果组的年夜范围尝试数据(DNA甲基化、DNase可及性、RNA表示等),从中进修到更细粒度的调控情势。像Borzoi正在输出时会供给数千条尝试轨迹,融合那些轨迹的差别疑息对于庞大性状的小效力变同更加敏感。看成者用线性模子对于那些下维输出截至再锻炼时,能够分析差别构造前提下的弘大差别,进而提拔辨别才气。
正在图9(本文Figure 9)
能够瞅到Borzoi把猜测轨迹辨别为RNA/CAGE、ATAC/ChIP、DNase等年夜类,而且正在庞大性状中,近端增强子特性尤其主要。因而颠末表不雅教数据,Borzoi能更佳分辨这些非守旧性但是仍具调控功用的突变。
Q5:模子融合正在该论文中起到了甚么感化?怎样理解作家正在庞大性状上颠末融合手艺所得到的支益?
A:作家测验考试将功用基果组监视模子(如Borzoi)的输出、自监视模子(如GPN-MSA)对于序列的守旧性表征,和CADD的大批正文特性截至拼交,最初用一个线性模子锻炼。如许干的念头正在于:
守旧性疑息能辅佐捕获这些受挑选压力较年夜的突变;功用基果组疑息能识别微小却实在存留的调控作用;其余正文战集体教疑息(如CADD的输出特性)则统筹了更多死物教战统计教维度。
正在图6(本文Figure 6)
平分明瞅到,当对于庞大性状干年夜范围融合后,AUPRC稳步提拔,表白差别模子相互之间的疑息具备互补性。作家也夸大,正在数据较小的孟德我性状上,这类下维拼交更可以构成过拟开,因而正在这种场景要稳重使用。但是关于庞大性状而行,多模态融合常能戴去更多删益。
综上,那五个枢纽手艺成就涵盖了TraitGym数据建立办法、自监视取监视模子道理差别、守旧性对于孟德我突变猜测的劣势,和功用基果组模子正在庞大性状场景下的独到的地方,和差别模子融合的合用代价。它们配合为咱们描绘了该论文正在深度进修基果组变同猜测范围的手艺重心取立异面。
https://www.biorxiv.org/content/10.1101/2025.02.11.637758
死物年夜模子锻炼微调使用&AI卵白量设想专科学程 请退 常识星球 👇👇👇
(客服 sssmd9 可启票)
|