Modelele lingvistice mari ar putea ajuta la proiectarea următoarei generații de medicamente și materiale

©

Autor:

Modelele lingvistice mari ar putea ajuta la proiectarea următoarei generații de medicamente și materiale
Dezvoltarea moleculelor noi pentru medicamente și materiale este un proces extrem de complex și consumator de resurse. Cercetătorii au nevoie să verifice un spațiu gigantic de posibile structuri chimice, să estimeze proprietățile lor și să propună metode fezabile de sinteză. Astfel, chiar și cu ajutorul metodelor computerizate existente, generarea și validarea noilor molecule poate dura luni de zile, costând sume considerabile de bani și muncă.
Modelele lingvistice mari sau Large Language Models (LLM, precum ChatGPT) noi, cu toată potențiala lor versatilitate în limbaj natural, nu au fost concepute în principal pentru structuri grafice ca acelea întâlnite în chimie (atomi și legături). Cercetătorii de la Massachusetts Institute of Technology (MIT) și MIT-IBM Watson AI Lab au propus o metodă „multimodală”, capabilă să îmbine limbaj natural cu reprezentări grafice avansate, pentru a genera și sintetiza molecule în mod complet automat.

Generarea inversă a moleculelor

Din punct de vedere tehnic, proiectarea inversă a unei molecule începe cu specificarea unor proprietăți dorite (ex. anumite mase moleculare, toxicitate scăzută, permeabilitate). Următorul pas e să găsim o structură chimică validă care respectă aceste cerințe. Până acum, asta era scump și lent, deoarece:
  • Modelele bazate pe machine learning specializate în chimie sunt greu de integrat cu interfața simplă a LLM-urilor precum ChatGPT.
  • LLM-urile, deși excelente în procesarea cuvintelor, nu manevrează ușor structuri moleculare reprezentate ca grafic (atomi = noduri, legături = muchii).

Necesitatea unui flux complet

În mod ideal, un chimist ar putea scrie: „Doresc o moleculă cu proprietatea X și Y, capabilă să inhibe un receptor particular, să fie biodegradabilă și să fie sintetizabilă în 3 pași”. LLM-ul ar răspunde nu doar cu descrierea moleculei, dar și cu planul de reacții chimice pentru obținerea ei. Așa ceva a fost dificil până la această abordare.

Metodologie și inovații

Cercetătorii au dezvoltat un sistem numit Llamole care combină:
  • Modelul LLM de bază (pentru limbaj natural), responsabil să înțeleagă cerințele introduse de utilizator și să orchestreze fluxul de generare;
  • Trei module de tip „AI bazată pe grafice”:
  1. Modul de generare a structurii moleculare (condiționat de criterii precum masa moleculară, proprietăți fizico-chimice etc.);
  2. Modul de transpunere a grafului molecular în format text pentru a-l include în fluxul LLM;
  3. Modul de retrosinteză - dă reacțiile chimice necesare pentru a obține structura pornind de la reactivi simpli.

Cheia este un nou tip de „jeton de declanșare” în LLM, care, atunci când este prezis, activează unul din aceste module. De pildă, dacă LLM emite token-ul „design”, se apelează modulul de generare moleculară. Dacă emite „retro”, se apelează modulul de planificare a reacțiilor, iar ieșirea fiecărui modul e transformată în text/imagini și reintrodusă LLM-ului pentru a continua generarea coerentă.

Rezultate și performanță

Calitate mai bună și rată de succes sporită

Llamole a fost comparat cu 14 alte modele LLM și rețele standard de proiectare chimică. Pe 12 metrici diferite, Llamole a obținut scoruri net superioare:
  • Gradul de potrivire cu specificațiile utilizatorului a fost mai ridicat;  
  • Planul de sinteză propus a fost mai viabil. Rata de reușită a reacțiilor a crescut de la circa 5% la 35%;
  • Costurile de producție a moleculelor proiectate pot fi mai reduse, pentru că Llamole tinde să sugereze structuri mai simple și reacții mai puțin costisitoare.

Depășește LLM-uri mult mai mari

Deși unii rivali au dimensiuni de peste 10 ori mai mari, Llamole s-a dovedit superior atunci când se cerea proiectarea structurii chimice și a reacțiilor folosind exclusiv text. Aceasta arată că multimodalitatea (text + grafic) e un factor crucial pentru succes.

Flux complet și transparent

Rezultatul final e un pachet format din:
  • Imaginea structurii moleculare;
  • O descriere textuală a moleculei și proprietăților;
  • Un protocol de reacție detaliat, pas cu pas, explicând fiecare transformare chimică.

Implicații și direcții viitoare

  • Automatizarea completă a proiectării: Această abordare se apropie de un sistem end-to-end, unde simpla cerință în limbaj natural („Vreau moleculă cu proprietatea X...”) declanșează secvențiere de module AI, până la planificarea reacțiilor.
  • Util în industrie: Progresul ar putea reduce substanțial timpul necesar companiilor farmaceutice și chimice pentru a găsi și sintetiza candidați moleculari.
  • Extindere în afara chimiei: aceeași logică de intercalare dintre text și graf ar putea fi aplicată la alte seturi de date grafice (rețele energetice, tranzacții financiare etc.).
  • Limitări: Llamole e antrenat să țină cont doar de 10 proprietăți numerice legate de molecule. Cercetătorii vor ca pe viitor să-l facă mai „universal”, cu module grafice și reacții îmbunătățite, crescând rata de sinteză reușită și acuratețea altor proprietăți.

Concluzie

Prin integrarea unui Large Language Model cu module grafice specializate, echipa MIT-IBM a reușit să creeze un sistem care:
  • Citește cerințe în limbaj natural,
  • Generează structuri moleculare în format grafic,
  • Oferă etape de sinteză chimică, totul într-un flux coerent.

Performanțele obținute demonstrează că multimodalitatea - nu doar text, ci și reprezentări grafice - este esențială pentru a duce LLM-urile la nivelul următor în proiectarea moleculară. Această tehnologie poate deschide calea către o nouă eră în descoperirea de medicamente și materiale, în care calculatoarele găsesc rapid structuri potrivite și explică modul de obținere, totul de la un simplu prompt în limbaj natural.

Data actualizare: 15-04-2025 | creare: 15-04-2025 | Vizite: 52
Bibliografie
Gang Liu, Michael Sun, Wojciech Matusik, Meng Jiang, Jie Chen. Multimodal Large Language Models for Inverse Molecular Design with Retrosynthetic Planning. arXiv.org, Submitted on 5 Oct 2024; DOI: 10.48550/arXiv.2410.04223

Image by rawpixel.com on Freepik
©

Copyright ROmedic: Articolul se află sub protecția drepturilor de autor. Reproducerea, chiar și parțială, este interzisă!