Inteligența artificială decodează riscurile de boală ascunse în ADN

©

Autor: 2569 vizite

SpecialitateGenetică medicală

Prezentare

Un studiu realizat de Icahn School of Medicine at Mount Sinai și publicat recent în Nature Communications a propus un nou model computațional, denumit Variant-to-Phenotype (V2P), care abordează una dintre cele mai persistente probleme ale genomicii moderne: interpretarea variantelor genetice de semnificație incertă. Cercetarea arată că integrarea predicției patogenicității cu predicția efectelor fenotipice oferă o rezoluție superioară în înțelegerea impactului biologic al variantelor genomice.
Extinderea rapidă a tehnologiilor de secvențiere de mare capacitate a condus la acumularea unui volum masiv de date genetice umane, incluzând milioane de variante de secvență. În ciuda progreselor metodologice, majoritatea acestor variante rămân insuficient caracterizate din punct de vedere funcțional și clinic.

Instrumentele computaționale existente pentru predicția efectului variantelor genetice s-au concentrat predominant pe clasificarea binară patogenic versus benign, tratând variantele patogene ca o categorie omogenă. Această abordare ignoră diversitatea mecanismelor moleculare și a manifestărilor clinice asociate variantelor, ceea ce poate conduce la performanțe inegale în funcție de genă, tip de variantă sau fenotip asociat.

Deși există metode care corelează genele cu fenotipuri sau boli, majoritatea predicțiilor la nivel de variantă sunt limitate fie la anumite patologii, fie la regiuni codante. Astfel, există o nevoie clară pentru metode capabile să prezică, la scară genomică, nu doar dacă o variantă este patogenă, ci și ce tip de fenotip uman este probabil să producă.

Despre studiu

Modelul V2P este un sistem de învățare automată multi-task și multi-output, conceput pentru a prezice simultan:

  • Probabilitatea ca o variantă să fie patogenă sau benignă;
  • Probabilitatea ca aceeași variantă să determine unul sau mai multe dintre cele 23 de fenotipuri majore definite în sub-ontologia „anomalie fenotipică” din Human Phenotype Ontology.


Modelul acceptă ca intrare atât variante mononucleotidice, cât și inserții sau deleții, localizate în regiuni codante sau non-codante. Pentru fiecare variantă sunt utilizate sute de caracteristici biologice, incluzând:

  • Caracteristici la nivel de genă (asocieri cu boli, căi biologice, expresie tisulară);
  • Caracteristici la nivel proteic (structură, stabilitate, regiuni de legare, dezordine structurală);
  • Caracteristici de rețea (interacțiuni proteină–proteină);
  • Caracteristici la nivel de variantă (conservare evolutivă, context genomic, impact aminoacidic).


Setul de date de antrenare a inclus 252.125 variante patogene din Human Gene Mutation Database și 244.231 variante considerate benigne din gnomAD, acoperind 6.620 de gene. Dintre variantele patogene, peste 200.000 aveau asocieri fenotipice definite conform Human Phenotype Ontology.

Distribuția fenotipurilor a fost neuniformă: anomaliile sistemului nervos și ale sistemului musculoscheletal au fost mult mai frecvente decât fenotipuri rare precum anomaliile cavității toracice sau ale vocii. Analizele au evidențiat, de asemenea, diferențe sistematice între fenotipuri în ceea ce privește:

  • Tendința variantelor de a afecta gene esențiale;
  • Gradul de conservare evolutivă al pozițiilor afectate;
  • Performanța predictorilor clasici de patogenicitate.

Rezultate

Arhitectura V2P și semnături biologice fenotipice

V2P generează 24 de scoruri pentru fiecare variantă: unul pentru patogenicitate globală și 23 pentru fenotipurile majore. Analizele de selecție a caracteristicilor au identificat, în medie, 282 de caracteristici relevante pentru fiecare fenotip, sugerând că fiecare grup fenotipic este asociat cu un profil biologic distinct.

De exemplu:

  • Variantele asociate cu anomalii musculoscheletale sunt îmbogățite în gene implicate în miopatii și tulburări de dezvoltare musculară;
  • Variantele asociate cu anomalii ale tegumentului sunt corelate cu expresie crescută în piele și cu gene implicate în tumori cutanate;
  • Fenotipurile sistemului nervos sunt influențate puternic de expresia cerebrală, interacțiunile proteice și modelele animale.

Performanță predictivă

V2P a fost evaluat pe aproape 400.000 de variante independente din trei seturi de date distincte, inclusiv ClinVar. Modelul a demonstrat:

  • Performanță superioară pentru predicția fenotipurilor în 21 din 23 categorii Human Phenotype Ontology;
  • Scoruri medii de precizie ridicate pentru discriminarea variantelor patogene față de cele benigne;
  • Avantaj clar față de metode consacrate precum CADD și Capice, în special pentru predicțiile condiționate de fenotip.


Pentru variantele missense, scorurile fenotipice V2P au depășit toate metodele comparate în 21 din 22 de fenotipuri. În medie, predicția fenotipică a adus o creștere de 0,16 a scorului de precizie față de următoarea cea mai bună metodă.

Concordanță cu date funcționale experimentale

Compararea cu date din experimente de tip deep mutational scanning și massively parallel reporter assays a arătat că V2P este:

  • La fel de performant ca metodele de top pentru variante codante;
  • Competitiv cu metodele dedicate pentru variante non-codante;
  • Sensibil la contextul structural și funcțional al proteinelor.

Aplicabilitate clinică

În analize pe exome de pacienți reali și simulați, V2P a permis identificarea variantelor cauzale cu o acuratețe superioară:

  • Varianta patogenă a fost clasată, în medie, pe poziția 2 folosind V2P;
  • Comparativ cu pozițiile 5,5 pentru CADD și 10 pentru Capice;
  • Peste 80% dintre variantele patogene au fost clasate în primele 10 poziții.

Concluzii

V2P introduce o schimbare conceptuală majoră în evaluarea variantelor genetice, demonstrând că predicția patogenicității este semnificativ îmbunătățită atunci când este integrată cu predicția efectelor fenotipice. Prin abordarea multi-task și utilizarea extensivă a informațiilor biologice, V2P oferă o perspectivă mai nuanțată asupra relației dintre genom și boală.

Deși limitată la fenotipuri de nivel înalt, metoda reprezintă un pas important către interpretarea genomică contextualizată clinic și oferă un instrument valoros pentru cercetare, diagnostic și explorarea mecanismelor bolilor genetice.

Referințe

David Stein, Meltem Ece Kars, Baptiste Milisavljevic, Matthew Mort, Peter D. Stenson, Jean-Laurent Casanova, David N. Cooper, Bertrand Boisson, Peng Zhang, Avner Schlessinger, Yuval Itan. Expanding the utility of variant effect predictions with phenotype-specific models. Nature Communications, 2025; 16 (1) DOI: 10.1038/s41467-025-66607-w
Programari cabinete medicale, clinici Alege-ți medicul și fă o programare!
Peste 13000 de cabinete medicale își prezintă serviciile pe ROmedic.