Προσδιορισμός των χαρακτηριστικών της ομιλίας της νόσου του Παρκινσον με τη χρήση τεχνικών βαθιάς μάθησης
Φόρτωση...
Ημερομηνία
2025-09-15
Συγγραφείς
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
ΕΛΜΕΠΑ, Σχολή Μηχανικών (ΣΜΗΧ), Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Επιβλέπων
Περίληψη
Η Νόσος του Πάρκινσον αποτελεί την δεύτερη πιο διαδεδομένη νευροεκφυλιστική διαταραχή που επηρεάζει την ομιλία των ασθενών στο 90% των περιπτώσεων, με το κύριο σύμπτωμά την υποκινητική δυσαρθρία. Η ανάγκη για έγκαιρη ανίχνευση και παρακολούθηση της νόσου, καθώς και η έλλειψη κατάλληλων διαγνωστικών εργαλείων, επικεντρωμένων στην ελληνική γλώσσα, πυροδοτεί την ανάγκη για την ανάπτυξη καινοτόμων εργαλείων για την διαγνωστική διαδικασία. Η ανάλυση ομιλίας, η οποία είναι μια μη επεμβατική και μη κοστοβόρα διαδικασία μπορεί να εντοπίσει χρήσιμους και αξιοποιήσιμους δείκτες, οι οποίοι θα συμβάλουν στον εντοπισμό της νόσου σε πρώιμο στάδιο, στην συνεχή παρακολούθηση και στην ενίσχυση της παραδοσιακής κλινικής εξέτασης.
Η παρούσα διπλωματική εργασία διερευνά την αναγνώριση χαρακτηριστικών ομιλίας της Νόσου του Πάρκινσον, μέσω τεχνικών βαθιάς μάθηση. Για τον σκοπό αυτό, αναλύθηκαν φωνητικά δεδομένα από 154 Έλληνες ασθενείς και από αυτούς εξήχθην 90 ακουστικά χαρακτηριστικά μέσω του τυποποιημένου συνόλου eGeMAPS.Για την αξιολόγηση χρησιμοποιήθηκαν έξι (6) ταξινομητικοί αλγόριθμοι: Logistic Regression, K-Nearest Neighbors, Random Forest, Support Vector Machine, XGBoost και Spiking Neural Networks, προκειμένου να γίνει η πρόβλεψη των κλινικά σημαντικών παραμέτρων της νόσου που είναι το στάδιο της νόσου μέσω της κλίμακας Hoehn & Yahr, η παρουσία δυσκινησίας και κινητικών διακυμάνσεων, καθώς και η ανταπόκριση στην θεραπεία με Levodopa σε ποσοτικό και ποιοτικό επίπεδο (UPDRS III dif class/UPDRS III dif per). Ακόλουθα, για να γίνει η επικύρωση των μοντέλων, αξιοποιήθηκε η αυστηρή μέθοδος Leave-One-Subject-Out (LOSO).
Τα μοντέλα συνόλου Random Forest και XGBoost παρουσίασαν της πιο ισορροπημένες επιδόσεις στο σύνολο των περιπτώσεων, αν και η διερεύνηση της ανταπόκρισης στην θεραπεία σε ποιοτικό και ποσοτικό επίπεδο, αποτέλεσε πρόκληση για όλα τα εξεταζόμενα μοντέλα. Το κύριο εύρημα της ανάλυσης αποτελεί ο εντοπισμός ενός προφίλ ασθενών, οι οποίοι παρουσιάζουν συστηματική χαμηλή ακρίβεια ταξινόμησης, και βρίσκονται σε ενδιάμεσα στάδια της νόσου, παρουσιάζουν δυσκινησία και η ανταπόκριση τους στην θεραπεία κυμαίνεται σε χαμηλά επίπεδα. Αυτά τα ευρήματα δείχνουν την δυσκολία που αντιμετωπίζουν τα υπολογιστικά μοντέλα να αποδίδουν σταθερά λόγω της ετερογένειας που εμφανίζει η Νόσος του Πάρκινσον.
Η περαιτέρω διερεύνηση των ευρημάτων αυτών μπορεί να συμβάλλει σε μελλοντικό σχεδιασμό πιο εξειδικευμένων, με επεμβατικών εργαλείων, για την υποστήριξη της κλινικής διάγνωσης, την διαρκή καταγραφή και έλεγχο της κατάστασης του ασθενούς, καθώς και στην ανάπτυξη λύσεων που θα είναι προσαρμοσμένες στις εκάστοτε υποομάδες ασθενών, ανάλογα με τις ανάγκες αυτών.
Parkinson's disease is the second most common neurodegenerative disorder affecting speech in 90% of cases, with hypokinetic dysarthria being the main symptom. The need for early detection and monitoring of the disease, as well as the lack of appropriate diagnostic tools focused on the Greek language, triggers the need for the development of innovative tools for the diagnostic process. Speech analysis, which is a non-invasive and inexpensive procedure, can identify useful and exploitable indicators that will contribute to the early detection of the disease, continuous monitoring, and enhancement of traditional clinical examination. This thesis investigates the recognition of speech characteristics of Parkinson's disease through deep learning techniques. To this end, voice data from 154 Greek patients were analyzed and 90 acoustic features were extracted from them using the standardized the Extended Geneva Minimalistic Acoustic Parameter Set (eGeMAPS) Six (6) classification algorithms were used for the evaluation: Logistic Regression, K-Nearest Neighbors, Random Forest, Support Vector Machine, XGBoost, and Spiking Neural Networks, in order to predict the clinically important parameters of the disease, which are the stage of the disease using the Hoehn & Yahr scale, the presence of dyskinesia and motor fluctuations, as well as the response to Levodopa treatment at a quantitative and qualitative level (UPDRS III dif class/UPDRS III dif per). Subsequently, the rigorous Leave-One-Subject-Out (LOSO) method was used to validate the models. The Random Forest and XGBoost ensemble models showed the most balanced performance across all cases, although investigating the response to treatment in qualitative and quantitative terms was a challenge for all models examined. The main finding of the analysis is the identification of a profile of patients who show consistently low classification accuracy, are in intermediate stages of the disease, have dyskinesia, and have low response to treatment. These findings demonstrate the difficulty computational models face in performing consistently due to the heterogeneity of Parkinson's disease. Further investigation of these findings may contribute to the future design of more specialized, invasive tools to support clinical diagnosis, continuous recording and monitoring of the patient's condition, as well as the development of solutions tailored to specific patient subgroups, depending on their needs.
Parkinson's disease is the second most common neurodegenerative disorder affecting speech in 90% of cases, with hypokinetic dysarthria being the main symptom. The need for early detection and monitoring of the disease, as well as the lack of appropriate diagnostic tools focused on the Greek language, triggers the need for the development of innovative tools for the diagnostic process. Speech analysis, which is a non-invasive and inexpensive procedure, can identify useful and exploitable indicators that will contribute to the early detection of the disease, continuous monitoring, and enhancement of traditional clinical examination. This thesis investigates the recognition of speech characteristics of Parkinson's disease through deep learning techniques. To this end, voice data from 154 Greek patients were analyzed and 90 acoustic features were extracted from them using the standardized the Extended Geneva Minimalistic Acoustic Parameter Set (eGeMAPS) Six (6) classification algorithms were used for the evaluation: Logistic Regression, K-Nearest Neighbors, Random Forest, Support Vector Machine, XGBoost, and Spiking Neural Networks, in order to predict the clinically important parameters of the disease, which are the stage of the disease using the Hoehn & Yahr scale, the presence of dyskinesia and motor fluctuations, as well as the response to Levodopa treatment at a quantitative and qualitative level (UPDRS III dif class/UPDRS III dif per). Subsequently, the rigorous Leave-One-Subject-Out (LOSO) method was used to validate the models. The Random Forest and XGBoost ensemble models showed the most balanced performance across all cases, although investigating the response to treatment in qualitative and quantitative terms was a challenge for all models examined. The main finding of the analysis is the identification of a profile of patients who show consistently low classification accuracy, are in intermediate stages of the disease, have dyskinesia, and have low response to treatment. These findings demonstrate the difficulty computational models face in performing consistently due to the heterogeneity of Parkinson's disease. Further investigation of these findings may contribute to the future design of more specialized, invasive tools to support clinical diagnosis, continuous recording and monitoring of the patient's condition, as well as the development of solutions tailored to specific patient subgroups, depending on their needs.
Περιγραφή
Λέξεις-κλειδιά
Νόσος Πάρκινσον, Βαθιά μάθηση, Ομιλία, Parkinson's disease, Deep learning, Speech