Inteligența artificială multimodală detectează boala Parkinson în vorbire, mers și scriere
Autor: Airinei Camelia

Un studiu publicat în jurnalul Frontiers in Digital Health a analizat utilizarea unui sistem multimodal bazat pe învățare profundă pentru detectarea bolii Parkinson prin integrarea simultană a trei tipuri de biomarkeri digitali: vorbirea, mersul și scrisul de mână. Cercetarea arată că fuziunea acestor modalități, împreună cu metode de inteligență artificială explicabilă, poate îmbunătăți atât acuratețea diagnostică, cât și transparența deciziilor algoritmice.
Idei principale
- Boala Parkinson este o afecțiune neurodegenerativă caracterizată prin simptome motorii și non-motorii complexe.
- Metodele clasice de diagnostic sunt în mare parte clinice și pot fi influențate de variabilitatea între evaluatori.
- Biomarkerii digitali, precum vorbirea, mersul și scrisul, pot fi analizați prin inteligență artificială pentru diagnostic obiectiv.
- Sistemele unimodale bazate pe o singură sursă de date au limitări legate de generalizare și robustețe.
- Modelul propus combină trei modalități și utilizează tehnici de explicabilitate precum SHAP, Grad-CAM și Integrated Gradients.
- Modelul multimodal a obținut o acuratețe de aproximativ 92%, depășind performanța modelelor unimodale.
Context
Boala Parkinson este una dintre cele mai frecvente afecțiuni neurodegenerative, afectând milioane de persoane la nivel global. Manifestările clinice includ tremor, rigiditate musculară, tulburări de mers și dificultăți de scriere, dar și simptome non-motorii precum tulburări de vorbire, deficite cognitive și probleme de somn.
Diagnosticul tradițional se bazează în principal pe examinarea neurologică și pe scale clinice, metode care pot introduce o componentă subiectivă și pot detecta mai greu stadiile incipiente ale bolii.
Progresele recente în inteligența artificială și învățarea profundă au permis analizarea unor biomarkeri digitali precum:
- caracteristicile acustice ale vorbirii
- dinamica mersului
- modelele grafice ale scrisului de mână
Studiile anterioare au arătat că metodele bazate pe vorbire pot atinge acurateți de până la 99% în condiții controlate, iar sistemele bazate pe senzori de mers pot atinge aproximativ 97%. Analiza scrisului de mână prin rețele neuronale convoluționale a raportat acurateți de aproximativ 98%.
Totuși, aceste sisteme unimodale sunt sensibile la factori externi precum zgomotul ambiental, diferențele de limbă sau calitatea senzorilor și nu reflectă complexitatea reală a simptomelor bolii.
Despre studiu
Obiectivul cercetării
Studiul a urmărit dezvoltarea unui sistem multimodal bazat pe învățare profundă care integrează simultan trei tipuri de biomarkeri digitali:
- semnale de mers
- semnale vocale
- imagini ale scrisului de mână
Modelul utilizează o strategie de fuziune timpurie a caracteristicilor și include mecanisme de inteligență artificială explicabilă pentru a permite interpretarea deciziilor algoritmice de către clinicieni.
Seturi de date utilizate
Cercetarea a utilizat trei baze de date publice independente:
- Set de date pentru scris de mână – 3.264 imagini cu spirale desenate de pacienți cu Parkinson și controale sănătoase.
- Set de date vocal – aproximativ 73 de participanți cu multiple înregistrări vocale ale vocalelor susținute.
- Set de date pentru mers – aproximativ 168 de participanți cu semnale de reacție la sol în timpul mersului.
Arhitectura sistemului
Fiecare tip de date este procesat printr-un pipeline dedicat de extragere a caracteristicilor:
- Mers – convoluții temporale și autoencodere pentru captarea anomaliilor ciclului de mers.
- Vorbire – spectrograme log-Mel analizate cu rețeaua EfficientNet-B0.
- Scris de mână – imagini analizate cu arhitectura ResNet-50.
Vectorii de caracteristici extrași din fiecare modalitate sunt apoi combinați într-un vector multimodal unic, care este utilizat de un clasificator XGBoost pentru predicția finală.
Pentru evaluare, cercetătorii au utilizat validare încrucișată stratificată în cinci fold-uri pentru a evita supraînvățarea și pentru a evalua generalizarea modelului.
Rezultate
Performanța modelelor unimodale
Rezultatele experimentale au arătat performanțe diferite pentru fiecare modalitate analizată:
- Scris de mână (ResNet-50): 91% acuratețe
- Mers (autoencoder + clasificator): 90% acuratețe
- Vorbire (EfficientNet-B0): 74% acuratețe
Scrisul de mână și mersul au oferit cei mai puternici biomarkeri digitali, în timp ce vorbirea a contribuit mai ales prin informații complementare.
Performanța modelului multimodal
Modelul care combină cele trei modalități a obținut:
- 92% acuratețe (interval de încredere 95%: 89,4–94,1%)
- macro-F1 score ≈ 0,89
- sensibilitate ≈ 90%
- specificitate ≈ 89%
Curba caracteristică de funcționare a receptorului a arătat o capacitate discriminativă ridicată, cu aria de sub curbă ≈ 0,95, iar curba precision–recall a indicat o precizie medie de aproximativ 0,96.
Analiza explicabilității modelului
Pentru interpretarea deciziilor algoritmului au fost utilizate mai multe tehnici de inteligență artificială explicabilă:
- SHAP pentru evaluarea importanței caracteristicilor
- Grad-CAM pentru localizarea regiunilor relevante din imagini
- Integrated Gradients pentru identificarea momentelor temporale relevante
Analizele au arătat că modelul utilizează caracteristici relevante clinic, precum:
- deviațiile spiralei de scriere induse de tremor
- asimetria presiunii plantare în timpul mersului
- instabilitatea spectrală a semnalului vocal
Rezultatele studiilor de ablație
Pentru a evalua contribuția fiecărei modalități, cercetătorii au eliminat pe rând componentele modelului:
- fără scris de mână: acuratețea scade la 85%
- fără mers: acuratețea scade la 86%
- fără vorbire: acuratețea scade la 89%
Aceste rezultate confirmă faptul că scrisul și mersul oferă informațiile cele mai discriminative, iar vorbirea aduce un plus de robusteză modelului.
Limitări
Autorii menționează mai multe limitări ale studiului:
- analiza s-a bazat pe seturi de date retrospective
- modelul a fost evaluat doar pentru clasificare binară
- explicabilitatea algoritmului nu a fost validată direct de clinicieni
- generalizarea poate fi influențată de diferențe lingvistice sau de tipul senzorilor utilizați
Concluzii
Rezultatele studiului arată că integrarea biomarkerilor digitali proveniți din vorbire, mers și scris de mână poate îmbunătăți detectarea bolii Parkinson comparativ cu metodele bazate pe o singură modalitate.
Modelul multimodal a demonstrat performanțe diagnostice ridicate și o interpretabilitate crescută datorită tehnicilor de inteligență artificială explicabilă. Această abordare ar putea contribui la dezvoltarea unor sisteme de screening precoce și monitorizare digitală a bolii Parkinson.
În viitor, autorii propun extinderea modelului prin integrarea datelor longitudinale, utilizarea unor seturi de date multicentrice și implementarea sistemului pe dispozitive mobile sau wearable pentru monitorizare continuă.
Image by freepik on Freepik
Copyright ROmedic: Articolul se află sub protecția drepturilor de autor. Reproducerea, chiar și parțială, este interzisă!
- O nouă tehnică pentru tratarea infecţiilor urechii medii
- Inteligența artificială prezice cu acuratețe infertilitatea masculină din nivelurile hormonale
- Radioterapia cu doză redusă, opțiune sigură și eficientă pentru tratarea osteoartritei genunchiului
- Noii biomarkeri oferă speranță pentru detectarea precoce și prevenirea bolii Alzheimer
- Aritmii, dispnee, amroteala in bratul stang, ceafa, piept, dureri ciudate la pacient YOPD
- Parkinson
- Bolnav ciroza și parkinson
- Parkinson Tratament Levodopa
- Sunt două proteine care distrug neuronii în boala Parkinson: alpha-synuclein și kinaza-C?
- Boala Parkinson-diagnostic RMN
- Parkinson, psihiatrie sau prefacatorie
- Caderi dese octogenara