Ανάλυση γονιδιακής έκφρασης με την χρήση νευρωνικών δικτύων.

Φόρτωση...
Μικρογραφία εικόνας
Ημερομηνία
2021-05-11
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
ΕΛ.ΜΕ.ΠΑ., ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ (ΣΜΗΧ), Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Η.Μ.U, School of Engineering (ScENG), Electrical and Computer Engineering Dept
Επιβλέπων
Περίληψη
Με την παρούσα εργασία επιδιώκεται η σκιαγράφηση των βασικών πτυχών της χρήσης τεχνητής νοημοσύνης στο πεδίο της βιοπληροφορικής και συγκεκριμένα της χρήσης νευρωνικών δικτύων για την ανάλυση γονιδιακών εκφράσεων. Πιο αναλυτικά, σε πρώτο στάδιο ορίζονται εισαγωγικές αλλά ιδιαίτερα χρήσιμες έννοιες για την παρούσα πτυχιακή εργασία. Έπειτα, παρουσιάζεται η διαδικασία συγκέντρωσης δεδομένων γονιδιακών εκφράσεων για 28 διαφορετικούς τύπους καρκίνου με 10.362 δείγματα από το TCGA, η οποία αποτελεί μια από τις πιο γνωστές βάσεις γονιδιακών εκφράσεων. Ακόμη, αναλύεται η διαδικασία προ επεξεργασίας των δεδομένων όπως η χρήση του αλγορίθμου SMOTE για την παραγωγή καινούργιων δειγμάτων και για την καλύτερη διεξαγωγή της ανάλυσης. Στην συνέχεια, παρουσιάζεται η εφαρμογή διαφορετικών ειδών της αρχιτεκτονικής Autoencoder και πιο συγκεκριμένα χρησιμοποιούνται τα μοντέλα Autoencoder, Denoising Autoencoder και Variational Autoencoder για την μείωση του αριθμού των χαρακτηριστικών. Μετά την μείωση των χαρακτηριστικών, τα δεδομένα τροφοδοτούνται σε δύο διαφορετικά δίκτυα ταξινόμησης, ένα απλό βαθύ νευρωνικό ( DNN ) δίκτυο και μια διαφορετική αρχιτεκτονική που ονομάζεται Deep Cross Model. Επιπρόσθετα, για την αξιολόγηση των αποτελεσμάτων των νευρωνικών δικτύων παρουσιάζεται και ένας διαφορετικός τρόπος ανάλυσης των αρχικών δεδομένων με την χρήση αλγορίθμων μηχανικής μάθησης. Συγκεκριμένα, για την μείωση των διαστάσεων χρησιμοποιείται ο αλγόριθμος PCA και για την διαδικασία της ταξινόμησης διαφορετικοί αλγόριθμοι ταξινόμησης, όπως ο αλγόριθμος SVM, Random Forests και άλλοι ακόμα. Εκτός από την ύπαρξη των δύο αναλύσεων παρουσιάζονται και δύο πρόσθετες αναλύσεις, οι οποίες αποτελούν μια μίξη των παραπάνω διαδικασιών. Ακόμη, παρουσιάζονται τα αποτελέσματα κάθε ανάλυσης και συγκρίνεται η μεταξύ τους απόδοση με ορισμένο μετρητή το ποσοστό ακρίβειας για την ταξινόμηση κάθε κλάσης. Τα αποτελέσματα από αυτές τις αναλύσεις ήταν, 97.4% για το ποσοστό ακρίβειας των αλγορίθμων μηχανικής μάθησης στην ταξινόμηση 2,210 χαρακτηριστικών σε σχέση με την ανάλυση των νευρωνικών δικτύων, που επιτεύχθηκε ποσοστό 95.4% για την ταξινόμηση 70 χαρακτηριστικών. Εκτός από το ποσοστό ακρίβειας , ένα μέτρο σύγκρισης ήταν και η διάρκεια εκπαίδευσης κάθε αλγορίθμου. Από τα πειράματά μας μπορούμε να συμπεράνουμε ότι τα μοντέλα βαθιάς μάθησης παρέχουν οριακά καλύτερα αποτελέσματα από τους παραδοσιακούς αλγόριθμους μηχανικής μάθησης για ένα τόσο περίπλοκο και μεγάλο σύνολο δεδομένων. Συμπερασματικά, αναφέρεται η διαδικασία συντονισμού υπερπαραμέτρων για την ανάλυση μηχανικής μάθησης και νευρωνικών δικτύων χρησιμοποιώντας τον αλγόριθμο Μπεϋζιανής βελτιστοποίησης για την παροχή καλύτερων αποτελεσμάτων. Καταληκτικά, γίνεται οπτικοποίηση των πινάκων «σύγχυσης» και πραγματοποιείται μείωση των δεδομένων σε δύο χαρακτηριστικά με την χρήση των αλγορίθμων t-SNE, PCA καθώς και την χρήση Variational Autoencoder + PCA και Variational Autoencoder + t-SNE για την οπτικοποίηση και την παρουσίαση ομοιοτήτων μεταξύ δειγμάτων όλων των τύπων καρκίνου.
The present work outlines the basic aspects of artificial intelligence in the field of bioinformatics and in particular the use of neural networks for the analysis of gene expressions. In the first stage, introductory concepts for the present dissertation are defined. Next, the process of collecting gene expression data for 28 different types of cancer with 10.362 samples from TCGA is presented, which is one of the best-known gene expression databases. Furthermore, pre-processing methods for data are described, such as the SMOTE algorithm, that can produce new samples for better performance of the analysis. Next, the application of different types of Autoencoder architecture is presented and specifically the Autoencoder, Denoising Autoencoder and Variational Autoencoder models are used to reduce the number of features. After the feature reduction, the data were fed into two different classification networks, a simple deep neural network and a different architecture called Deep Cross Model. Also, an alternative way of analyzing the original data using machine learning algorithms is presented in order to evaluate and compare the results with the ones of the neural networks. Specifically, for the reduction of dimensions the PCA algorithm used and for the classification process different classification algorithms, such as the SVM algorithm, Random Forests and others employed. In addition, two different analyzes are presented, which are a mixture of the above procedures. Furthermore, the results of each analysis are presented and the performance between them is compared using the accuracy for the classification of each class. The results of these metrics were 97.4% accuracy score produced by the machine learning analysis for the classification of 2210 features while 95.4% accuracy produced by the deep learning task with number of features for each sample reduced to 70. In addition to the percentage of accuracy, a measure of comparison is the training duration of each algorithm. From our experiments we can conclude that the deep learning models provide marginally better results than the traditional machine learning algorithms for such a complex and big dataset. Concluding, the process of tuning hyperparameters for the analysis of machine learning and neural networks using the Bayesian optimization algorithm to provide better results is mentioned. Finally, the confusion matrices are visualized and the data were reduced to two features using the algorithms t-SNE, PCA as well as the use of Variational Autoencoder + PCA and Variational Autoencoder + t-SNE for their visualization and the presentation of similarities between of samples of all the types of cancer.
Περιγραφή
Λέξεις-κλειδιά
Παραπομπή