Developing an LSTM-based framework for assessing the risk of adverse drug reactions in polypharmacy patients using multimodal data

Φόρτωση...
Μικρογραφία εικόνας
Ημερομηνία
2026-03-05
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
ΕΛΜΕΠΑ, Σχολή Μηχανικών (ΣΜΗΧ), ΠΜΣ Μηχανικών Πληροφορικής
Περίληψη
Adverse drug reactions (ADRs) are harmful, unexpected responses to medications at standard therapeutic doses, while adverse drug events (ADEs) more broadly include ADRs as well as harm from overdoses or prescription errors. In this study, the two terms are treated interchangeably. The prediction of ADRs is crucial in clinical practice since these events can cause serious complications and increase healthcare costs, yet they are often preventable. Advances in electronic health records and health informatics have increased access to large, real-world clinical datasets, often including both static and longitudinal patient information. Multimodal approaches, which integrate multiple data types, can extract complementary knowledge from each data modality, while deep learning models are particularly well-suited to uncover hidden patterns and complex relationships. However, even with powerful techniques, it is essential to frame the prediction problem according to its specific challenges. Additionally, harmful events such as ADRs are generally rare, which can create extreme class imbalance in datasets. This master’s thesis develops a predictive model for personalized ADR risk assessment using UK Biobank data, incorporating genetic information, drug prescriptions, diagnoses, and demographic factors that were carefully organized to ensure the problem was accurately formulated. A multimodal Long Short-Term Memory (LSTM) model integrates all data modalities separately for prediction, handling ADR prediction as a binary classification task. During the study, we addressed the class imbalance using algorithm-level techniques rather than data-level approaches, preserving the natural distribution of real-world data. The study highlights the difficulty of predicting rare ADRs, with only 0,39% of over 2 million samples being positive. Additional limitations included incomplete medication data and missing patient-level features, which affected model effectiveness. Nonetheless, the model can detect roughly 4 in 10 ADR cases without overpredicting positives, demonstrating its potential. These findings underscore the value of richer data and reframing ADR prediction as an anomaly detection task rather than simple binary classification, which better suits the identification of rare events and handling extreme imbalance, ultimately improving predictive performance and patient safety.
Οι ανεπιθύμητες αντιδράσεις φαρμάκων (ADRs) είναι επιβλαβείς, απροσδόκητες αντιδράσεις σε φάρμακα σε τυπικές θεραπευτικές δόσεις, ενώ τα ανεπιθύμητα συμβάντα φαρμάκων (Adverse Drug Events - ADEs) ευρύτερα περιλαμβάνουν τις ADRs καθώς και τη βλάβη από υπερδοσολογία ή σφάλματα συνταγογράφησης. Σε αυτήν τη διπλωματική εργασία, οι δύο όροι αντιμετωπίζονται εναλλακτικά. Η πρόβλεψη των ADRs είναι κρίσιμη στην κλινική πρακτική, καθώς αυτά τα συμβάντα μπορούν να προκαλέσουν σοβαρές επιπλοκές και να αυξήσουν το κόστος υγειονομικής περίθαλψης, ωστόσο συχνά μπορούν να προληφθούν. Η εισαγωγή και χρήση συστημάτων πληροφορικής στους φορείς υγείας και η εισαγωγή του Ηλεκτρονικού Φακέλου Υγείας έχουν αυξήσει την πρόσβαση σε μεγάλα σύνολα κλινικών δεδομένων (Real World Data), που συχνά περιλαμβάνουν τόσο στατικές όσο και διαχρονικές πληροφορίες ασθενών. H ομογενοποίηση (harmonization) και χρήση πολλών τύπων πολυτροπικών δεδομένων δημιουργεί τη δυνατότητα εξαγωγής συμπληρωματικών γνώσεων με τη χρήση κατάλληλων μεθόδων ανάλυσης μεγάλων συνόλων δεδομένων (big data), ενώ τα μοντέλα βαθιάς μάθησης είναι ιδιαίτερα κατάλληλα για την αποκάλυψη κρυφών μοτίβων και σύνθετων σχέσεων ανάμεσα στα πολυεπίπεδα αυτά δεδομένα. Η παρούσα μεταπτυχιακή εργασία εστίασε στην ανάπτυξη προβλεπτικών μοντέλων για την εξατομικευμένη αξιολόγηση κινδύνου εμφάνισης ανεπιθύμητων ενεργειών (ADR) σε ασθενείς με πολυφαρμακία, χρησιμοποιώντας τα σύνολα δεδομένων την βιοτράπεζα του Ηνωμένου Βασιλείου (UK Biobank), η οποία ενσωματώνει γενετικές πληροφορίες, συνταγές φαρμάκων, διαγνώσεις και δημογραφικούς παράγοντες που οργανώθηκαν προσεκτικά για να διασφαλιστεί η ακριβής διατύπωση του προβλήματος. Αξίζει τα σημειωθεί ότι τα επιβλαβή συμβάντα όπως οι ADRs είναι γενικά σπάνια, γεγονός που μπορεί να δημιουργήσει ακραία ανισορροπία τάξεων στα σύνολα δεδομένων. Αναπτύχθηκε ένα multimodal Long Short-Term Memory (LSTM) μοντέλο το οποίο αξιοποιεί όλους τους τύπους δεδομένων με στόχο την εκτίμηση της πιθανότητας για εμφάνιση ανεπιθύμητων ενεργειών (ADE). Στα πλαίσια της διπλωματικής αντιμετωπίσαμε το πρόβλημα του class imbalance χρησιμοποιώντας τεχνικές σε επίπεδο αλγορίθμου και όχι σε επίπεδο δεδομένων (using algorithm-level techniques rather than data-level approaches), διατηρώντας τη φυσική κατανομή των δεδομένων του πραγματικού κόσμου. Η μελέτη ανέδειξε τη δυσκολία πρόβλεψης σπάνιων ADR, με μόνο το 0,39% σε πάνω από 2 εκατομμύρια δείγματα να είναι θετικά. Πρόσθετοι περιορισμοί περιλάμβαναν ατελή δεδομένα φαρμακευτικής αγωγής και ελλιπή χαρακτηριστικά σε επίπεδο ασθενούς, τα οποία επηρεάζουν την αποτελεσματικότητα του μοντέλου. Παρ 'όλα αυτά, το μοντέλο μπορεί να ανιχνεύσει περίπου 4 στις 10 περιπτώσεις ADR χωρίς να υπερεκτιμά τα θετικά, καταδεικνύοντας τις δυνατότητές του. Αυτά τα ευρήματα υπογραμμίζουν την αξία των πλουσιότερων δεδομένων και την αναδιατύπωση της πρόβλεψης ADR ως μια εργασία ανίχνευσης ανωμαλιών αντί για την απλή δυαδική ταξινόμηση, η οποία ταιριάζει καλύτερα στην αναγνώριση σπάνιων συμβάντων και στον χειρισμό ακραίας ανισορροπίας, βελτιώνοντας τελικά την προγνωστική απόδοση και την ασφάλεια των ασθενών.
Περιγραφή
Λέξεις-κλειδιά
Polypharmacy, Adverse drug reaction, Predictive model, LSTM, Πολυφαρμακία, Ανεπιθύμητες ενέργειες φαρμάκων, Μοντέλο πρόβλεψης
Παραπομπή