Inteligența artificială decodează riscurile de boală ascunse în ADN
Autor: Airinei Camelia

Un studiu realizat de Icahn School of Medicine at Mount Sinai È™i publicat recent în Nature Communications a propus un nou model computaÈ›ional, denumit Variant-to-Phenotype (V2P), care abordează una dintre cele mai persistente probleme ale genomicii moderne: interpretarea variantelor genetice de semnificaÈ›ie incertă. Cercetarea arată că integrarea predicÈ›iei patogenicității cu predicÈ›ia efectelor fenotipice oferă o rezoluÈ›ie superioară în înÈ›elegerea impactului biologic al variantelor genomice.
Extinderea rapidă a tehnologiilor de secvenÈ›iere de mare capacitate a condus la acumularea unui volum masiv de date genetice umane, incluzând milioane de variante de secvență. În ciuda progreselor metodologice, majoritatea acestor variante rămân insuficient caracterizate din punct de vedere funcÈ›ional È™i clinic.
Instrumentele computaÈ›ionale existente pentru predicÈ›ia efectului variantelor genetice s-au concentrat predominant pe clasificarea binară patogenic versus benign, tratând variantele patogene ca o categorie omogenă. Această abordare ignoră diversitatea mecanismelor moleculare È™i a manifestărilor clinice asociate variantelor, ceea ce poate conduce la performanÈ›e inegale în funcÈ›ie de genă, tip de variantă sau fenotip asociat.
Deși există metode care corelează genele cu fenotipuri sau boli, majoritatea predicțiilor la nivel de variantă sunt limitate fie la anumite patologii, fie la regiuni codante. Astfel, există o nevoie clară pentru metode capabile să prezică, la scară genomică, nu doar dacă o variantă este patogenă, ci și ce tip de fenotip uman este probabil să producă.
Despre studiu
Modelul V2P este un sistem de învățare automată multi-task È™i multi-output, conceput pentru a prezice simultan:
- Probabilitatea ca o variantă să fie patogenă sau benignă;
- Probabilitatea ca aceeaÈ™i variantă să determine unul sau mai multe dintre cele 23 de fenotipuri majore definite în sub-ontologia „anomalie fenotipică” din Human Phenotype Ontology.
Modelul acceptă ca intrare atât variante mononucleotidice, cât È™i inserÈ›ii sau deleÈ›ii, localizate în regiuni codante sau non-codante. Pentru fiecare variantă sunt utilizate sute de caracteristici biologice, incluzând:
- Caracteristici la nivel de genă (asocieri cu boli, căi biologice, expresie tisulară);
- Caracteristici la nivel proteic (structură, stabilitate, regiuni de legare, dezordine structurală);
- Caracteristici de reÈ›ea (interacÈ›iuni proteină–proteină);
- Caracteristici la nivel de variantă (conservare evolutivă, context genomic, impact aminoacidic).
Setul de date de antrenare a inclus 252.125 variante patogene din Human Gene Mutation Database și 244.231 variante considerate benigne din gnomAD, acoperind 6.620 de gene. Dintre variantele patogene, peste 200.000 aveau asocieri fenotipice definite conform Human Phenotype Ontology.
DistribuÈ›ia fenotipurilor a fost neuniformă: anomaliile sistemului nervos È™i ale sistemului musculoscheletal au fost mult mai frecvente decât fenotipuri rare precum anomaliile cavității toracice sau ale vocii. Analizele au evidenÈ›iat, de asemenea, diferenÈ›e sistematice între fenotipuri în ceea ce priveÈ™te:
- Tendința variantelor de a afecta gene esențiale;
- Gradul de conservare evolutivă al pozițiilor afectate;
- Performanța predictorilor clasici de patogenicitate.
Rezultate
Arhitectura V2P și semnături biologice fenotipice
V2P generează 24 de scoruri pentru fiecare variantă: unul pentru patogenicitate globală È™i 23 pentru fenotipurile majore. Analizele de selecÈ›ie a caracteristicilor au identificat, în medie, 282 de caracteristici relevante pentru fiecare fenotip, sugerând că fiecare grup fenotipic este asociat cu un profil biologic distinct.
De exemplu:
- Variantele asociate cu anomalii musculoscheletale sunt îmbogățite în gene implicate în miopatii È™i tulburări de dezvoltare musculară;
- Variantele asociate cu anomalii ale tegumentului sunt corelate cu expresie crescută în piele È™i cu gene implicate în tumori cutanate;
- Fenotipurile sistemului nervos sunt influențate puternic de expresia cerebrală, interacțiunile proteice și modelele animale.
Performanță predictivă
V2P a fost evaluat pe aproape 400.000 de variante independente din trei seturi de date distincte, inclusiv ClinVar. Modelul a demonstrat:
- Performanță superioară pentru predicÈ›ia fenotipurilor în 21 din 23 categorii Human Phenotype Ontology;
- Scoruri medii de precizie ridicate pentru discriminarea variantelor patogene față de cele benigne;
- Avantaj clar față de metode consacrate precum CADD È™i Capice, în special pentru predicÈ›iile condiÈ›ionate de fenotip.
Pentru variantele missense, scorurile fenotipice V2P au depășit toate metodele comparate în 21 din 22 de fenotipuri. În medie, predicÈ›ia fenotipică a adus o creÈ™tere de 0,16 a scorului de precizie față de următoarea cea mai bună metodă.
Concordanță cu date funcționale experimentale
Compararea cu date din experimente de tip deep mutational scanning și massively parallel reporter assays a arătat că V2P este:
- La fel de performant ca metodele de top pentru variante codante;
- Competitiv cu metodele dedicate pentru variante non-codante;
- Sensibil la contextul structural și funcțional al proteinelor.
Aplicabilitate clinică
În analize pe exome de pacienÈ›i reali È™i simulaÈ›i, V2P a permis identificarea variantelor cauzale cu o acurateÈ›e superioară:
- Varianta patogenă a fost clasată, în medie, pe poziÈ›ia 2 folosind V2P;
- Comparativ cu pozițiile 5,5 pentru CADD și 10 pentru Capice;
- Peste 80% dintre variantele patogene au fost clasate în primele 10 poziÈ›ii.
Concluzii
V2P introduce o schimbare conceptuală majoră în evaluarea variantelor genetice, demonstrând că predicÈ›ia patogenicității este semnificativ îmbunătățită atunci când este integrată cu predicÈ›ia efectelor fenotipice. Prin abordarea multi-task È™i utilizarea extensivă a informaÈ›iilor biologice, V2P oferă o perspectivă mai nuanÈ›ată asupra relaÈ›iei dintre genom È™i boală.
DeÈ™i limitată la fenotipuri de nivel înalt, metoda reprezintă un pas important către interpretarea genomică contextualizată clinic È™i oferă un instrument valoros pentru cercetare, diagnostic È™i explorarea mecanismelor bolilor genetice.
Copyright ROmedic: Articolul se află sub protecția drepturilor de autor. Reproducerea, chiar și parțială, este interzisă!
- Noua tehnologie mRNA produce de 200 de ori mai multe proteine: speranță pentru tratamentul cancerului și al bolilor cauzate de proteine defectuoase
- Recunoașterea timpurie a sindromului Swyer, facilitată de noile descoperiri
- Tendinoza determină celulele să modifice structura genomului
- Unele amintiri ar putea fi moștenite ereditar
- Implant silicon sani
- Pentru cei cu anxietate si atacuri de panica FOARTE IMPORTANT
- GRUP SUPORT PENTRU TOC 2014
- Histerectomie totala cu anexectomie bilaterala
- Grup de suport pentru TOC-CAP 15
- Roaccutane - pro sau contra
- Care este starea dupa operatie de tiroida?
- Helicobacter pylori
- Medicamente antidepresive?
- Capsula de slabit - mit, realitate sau experiente pe oameni