Categorical embedding with Deep Learning.
Φόρτωση...
Ημερομηνία
2021-02-04
Συγγραφείς
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
ΕΛ.ΜΕ.ΠΑ., ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ (ΣΜΗΧ), Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Η.Μ.U, School of Engineering (ScENG), Electrical and Computer Engineering Dept
Η.Μ.U, School of Engineering (ScENG), Electrical and Computer Engineering Dept
Επιβλέπων
Περίληψη
The study conducted in the framework of the dissertation on "Categorical embedding with deep learning". To clarify, the purpose of the dissertation is to study and implement a word-embedding neural network for genomic data which is a network consisting of three levels namely the input level, the hidden level and the output level. All these levels are interconnected with different forces (weights) which are also called word-embedding.
The selected architecture of the neural network falls in the Natural Language Processing (NLP) category. NLP is a research field that investigates how a computer can control and extract knowledge from text or dialogue into a natural language. The model implemented in this dissertation is the Continues Bags of Words (CBOW), a model that accepts as input a set of number boxes (contexts) which are the number of words corresponding to a text. Each context corresponds to several words defined by the developer, has a target context and a table with the difference of the words in a text that correspond to that context. The network is trained with the assumption that each context is close to the words that are the target. The aim is to train the CBOW neural network and to form word embedding using as input known mutations of a human.
Before we get to the training point, the network requires some data as input. Our data comes from the human genome using the Ensembl Variant Effect Predictor (VEP). Our main objective is to get all the human mutations (about 80 million mutations) and train a model that will handle each mutation as a word and each disease as the context. VEP is a tool for annotating, evaluating and prioritizing genomic mutations, even in non-coding areas. The VEP predicts the effects of sequence mutations on transcripts, protein products, regulatory regions, and binding patterns, utilizing the high quality, wide scope, and comprehensive design of Ensemble databases with high accuracy. In the next, we pass the variants/mutations to a python script where we select input features based on specific criteria described in chapter Experiment 1 (sub section Data) and Experiment 2 (sub section Data). After selecting the data, we form the context list with the data and a target context for each single-nucleotide polymorphism (SNP) variant. Then the CBOW model is trained with the variants contexts mentioned above and after some epochs the embedding (weights) that are between the first level and the hidden are formed. We extract these weights from the network and pass them to the Principal Component Analysis (PCA) to visualize it as a scatter plot. PCA, is a dimensionality-reduction method that is often used to reduce the dimensionality of large data sets, by transforming a large set of variables into a smaller one that still contains most of the information in the large set. Finally, cosine similarities were used. Cosine similarity is a measurement in data retrieval. The application of this measurement can be applied to two corpuses (paragraph, sentence and the whole corpus). If the similarity score is high between two corpus term vector and the query vector, the greater relevance of text and query. Once we have taken a SNP as a sample and passed it through cosine similarity we can find other SNP’s close to this that we expect to be more similar so there is a possibility that this mutation will affect our sample.
We applied this methodology to three experiments. The first one was for the representation and clustering of human chromosome 22 variants. In this experiment we attempt to find relevance between random SNPs and verify them. Due to the large amount of chromosome data and processing time it was hard to have the best possible results. So we moved to the second and third experiment with less data targeted to a disease, specific in cancer variant and possible cancer variants. The results of the model are promising and we believe that such a methodology could be used in the genomics era.
Η παρούσα μελέτη διεξήχθη στα πλαίσια της πτυχιακής εργασίας με θέμα «Κατηγορηματική επισημείωση με τη χρήση διανυσματικών παραστάσεων και βαθέων νευρωνικών δικτύων». Ο σκοπός της πτυχιακής εργασίας είναι να μελετήσει και να εφαρμόσει ένα word-embedding νευρωνικό δίκτυο για γονιδιωματικά δεδομένα όπου θα είναι ένα δίκτυο που αποτελείται από τρία επίπεδα, δηλαδή το επίπεδο εισόδου, το κρυφό επίπεδο και το επίπεδο εξόδου. Όλα αυτά τα επίπεδα διασυνδέονται με διαφορετικές δυνάμεις (βάρη) που ονομάζονται επίσης word-embedding. Αυτή η εργασία χρησιμοποιεί βάρη από το επίπεδο εισόδου έως το κρυφό επίπεδο. Η επιλεγμένη αρχιτεκτονική του νευρικού δικτύου εμπίπτει στην κατηγορία Natural Language Processing (NLP). Το NLP είναι ένα πεδίο έρευνας που διερευνά τον τρόπο με τον οποίο ένας υπολογιστής μπορεί να ελέγξει και να εξαγάγει γνώσεις από ένα κείμενο ή διάλογο σε μια φυσική γλώσσα. Το μοντέλο που εφαρμόζεται σε αυτήν την εργασία είναι το Continues Bags of Words (CBOW), ένα μοντέλο που δέχεται ως εισαγωγή ένα σύνολο αριθμητικών κουτιών (contexts) όπου είναι οι αριθμητικές λέξεις που αντιστοιχούν σε ένα κείμενο. Κάθε context αντιστοιχεί σε αρκετές λέξεις που ορίζονται από τον προγραμματιστή, έχει ένα target context και έναν πίνακα με τη διαφορά των λέξεων σε ένα κείμενο που αντιστοιχεί σε αυτό το context. Το δίκτυο εκπαιδεύεται με την υπόθεση ότι κάθε context είναι κοντά στις λέξεις που είναι ο στόχος. Ο στόχος είναι να εκπαιδεύσει το νευρωνικό δίκτυο CBOW και να διαμορφώσει το word embedding χρησιμοποιώντας ως μεταλλάξεις εισόδου των homo sapiens. Πριν φτάσουμε στο σημείο εκπαίδευσης, το δίκτυο απαιτεί ορισμένα δεδομένα ως είσοδο. Τα δεδομένα μας προέρχονται από το ανθρώπινο γονιδίωμα χρησιμοποιώντας το Ensembl Variant Effect Predictor (VEP). Ο κύριος στόχος μας είναι να πάρουμε όλες τις ανθρώπινες μεταλλάξεις (περίπου 80 εκατομμύρια μεταλλάξεις) και να εκπαιδεύσουμε ένα μοντέλο που θα χειρίζεται κάθε μετάλλαξη ως λέξη και κάθε ασθένεια ως το context. Το VEP είναι μια ισχυρή εργαλειοθήκη για την αξιολόγηση, τον σχολιασμό και την ιεράρχηση των γονιδιωματικών παραλλαγών, ακόμη και σε περιοχές που δεν κωδικοποιούν. Το VEP προβλέπει με ακρίβεια τα αποτελέσματα των παραλλαγών ακολουθίας σε μεταγραφές, πρωτεϊνικά προϊόντα, ρυθμιστικές περιοχές και δεσμευτικά μοτίβα, χρησιμοποιώντας την υψηλή ποιότητα και το ευρύ πεδίο για τον ολοκληρωμένο σχεδιασμό βάσεων δεδομένων Ensemble. Στην συνέχεια, μεταβιβάζουμε τις παραλλαγές / μεταλλάξεις σε ένα script python όπου επιλέγουμε τα χαρακτηριστικά εισαγωγής βάση συγκεκριμένων κριτηρίων που περιγράφονται στο κεφάλαιο Experiment 1 (υποενότητα Data), Experiment 2 (υποενότητα Data) και Experiment 3 (υποενότητα Data). Αφού επιλέξουμε τα δεδομένα, διαμορφώνουμε τη context λίστα με τα δεδομένα και ένα target context για κάθε παραλλαγή πολυμορφισμού μονού νουκλεοτιδίου (SNP). Στη συνέχεια, το μοντέλο CBOW εκπαιδεύεται με τα variants contexts που αναφέρονται παραπάνω και μετά από μερικά epochs σχηματίζονται τα βάρη που βρίσκονται μεταξύ του πρώτου επιπέδου και του κρυφού επιπέδου. Εξάγουμε αυτά τα βάρη από το δίκτυο και τα μεταφέρουμε στην Ανάλυση Κύριου Συστατικού (Principal Component Analysis - PCA) για να το απεικονίσουμε με ένα διάγραμμα διασποράς. Το PCA είναι μια τεχνική που χρησιμοποιεί εξελιγμένες μαθηματικές αρχές για τη μετατροπή αρκετών δυνητικά συσχετισμένων μεταβλητών σε μικρότερο αριθμό μεταβλητών που ονομάζονται κύρια συστατικά. Εν συντομία βρίσκει μέχρι τρεις διαστάσεις από δεδομένα με Ν (Ν>3) διαστάσεις. Τέλος, χρησιμοποιήθηκε ομοιότητες με συνημίτονα (Cosine Similarity). Η ομοιότητα συνημίτονων είναι μια ευρέως χρησιμοποιούμενη μέτρηση στην ανάκτηση πληροφοριών και σε σχετικές μελέτες. Η εφαρμογή αυτής της μέτρησης μπορεί να εφαρμοστεί σε δύο κείμενα (πρόταση, παράγραφος ή ολόκληρο το έγγραφο). Όσο υψηλότερη είναι η βαθμολογία ομοιότητας μεταξύ του διανύσματος όρου εγγράφου και του διανύσματος όρου ερωτήματος, τόσο μεγαλύτερη είναι η συνάφεια μεταξύ του εγγράφου και του ερωτήματος. Μόλις πάρουμε ένα SNP ως δείγμα και το περάσουμε μέσω ομοιότητας συνημίτονου, μπορούμε να βρούμε άλλα SNP κοντά σε αυτό που αναμένουμε να είναι πιο όμοια, έτσι υπάρχει πιθανότητα αυτή η μετάλλαξη να επηρεάσει το δείγμα μας. Εφαρμόσαμε αυτήν τη μεθοδολογία σε τρία πειράματα. Το πρώτο ήταν για την αναπαράσταση και την ομαδοποίηση των παραλλαγών του ανθρώπινου χρωμοσώματος 22. Σε αυτό το πείραμα προσπαθούμε να βρούμε συσχέτιση μεταξύ τυχαίων SNP και να τα επαληθεύσουμε. Λόγω του μεγάλου όγκου δεδομένων και του χρόνου επεξεργασίας ήταν δύσκολο να έχουμε μια την καλύτερη εικόνα των αποτελεσμάτων. Έτσι, προχωρήσαμε στο δεύτερο και τρίτο πείραμα με λιγότερα δεδομένα που στοχεύουν σε μια ασθένεια, συγκεκριμένα σε μεταλλάξεις καρκίνου και πιθανές μεταλλάξεις καρκίνου. Τα αποτελέσματα του μοντέλου είναι πολλά υποσχόμενα και πιστεύουμε ότι μια τέτοια μεθοδολογία θα μπορούσε να χρησιμοποιηθεί στην περιοχή της γονιδιωματικής.
Η παρούσα μελέτη διεξήχθη στα πλαίσια της πτυχιακής εργασίας με θέμα «Κατηγορηματική επισημείωση με τη χρήση διανυσματικών παραστάσεων και βαθέων νευρωνικών δικτύων». Ο σκοπός της πτυχιακής εργασίας είναι να μελετήσει και να εφαρμόσει ένα word-embedding νευρωνικό δίκτυο για γονιδιωματικά δεδομένα όπου θα είναι ένα δίκτυο που αποτελείται από τρία επίπεδα, δηλαδή το επίπεδο εισόδου, το κρυφό επίπεδο και το επίπεδο εξόδου. Όλα αυτά τα επίπεδα διασυνδέονται με διαφορετικές δυνάμεις (βάρη) που ονομάζονται επίσης word-embedding. Αυτή η εργασία χρησιμοποιεί βάρη από το επίπεδο εισόδου έως το κρυφό επίπεδο. Η επιλεγμένη αρχιτεκτονική του νευρικού δικτύου εμπίπτει στην κατηγορία Natural Language Processing (NLP). Το NLP είναι ένα πεδίο έρευνας που διερευνά τον τρόπο με τον οποίο ένας υπολογιστής μπορεί να ελέγξει και να εξαγάγει γνώσεις από ένα κείμενο ή διάλογο σε μια φυσική γλώσσα. Το μοντέλο που εφαρμόζεται σε αυτήν την εργασία είναι το Continues Bags of Words (CBOW), ένα μοντέλο που δέχεται ως εισαγωγή ένα σύνολο αριθμητικών κουτιών (contexts) όπου είναι οι αριθμητικές λέξεις που αντιστοιχούν σε ένα κείμενο. Κάθε context αντιστοιχεί σε αρκετές λέξεις που ορίζονται από τον προγραμματιστή, έχει ένα target context και έναν πίνακα με τη διαφορά των λέξεων σε ένα κείμενο που αντιστοιχεί σε αυτό το context. Το δίκτυο εκπαιδεύεται με την υπόθεση ότι κάθε context είναι κοντά στις λέξεις που είναι ο στόχος. Ο στόχος είναι να εκπαιδεύσει το νευρωνικό δίκτυο CBOW και να διαμορφώσει το word embedding χρησιμοποιώντας ως μεταλλάξεις εισόδου των homo sapiens. Πριν φτάσουμε στο σημείο εκπαίδευσης, το δίκτυο απαιτεί ορισμένα δεδομένα ως είσοδο. Τα δεδομένα μας προέρχονται από το ανθρώπινο γονιδίωμα χρησιμοποιώντας το Ensembl Variant Effect Predictor (VEP). Ο κύριος στόχος μας είναι να πάρουμε όλες τις ανθρώπινες μεταλλάξεις (περίπου 80 εκατομμύρια μεταλλάξεις) και να εκπαιδεύσουμε ένα μοντέλο που θα χειρίζεται κάθε μετάλλαξη ως λέξη και κάθε ασθένεια ως το context. Το VEP είναι μια ισχυρή εργαλειοθήκη για την αξιολόγηση, τον σχολιασμό και την ιεράρχηση των γονιδιωματικών παραλλαγών, ακόμη και σε περιοχές που δεν κωδικοποιούν. Το VEP προβλέπει με ακρίβεια τα αποτελέσματα των παραλλαγών ακολουθίας σε μεταγραφές, πρωτεϊνικά προϊόντα, ρυθμιστικές περιοχές και δεσμευτικά μοτίβα, χρησιμοποιώντας την υψηλή ποιότητα και το ευρύ πεδίο για τον ολοκληρωμένο σχεδιασμό βάσεων δεδομένων Ensemble. Στην συνέχεια, μεταβιβάζουμε τις παραλλαγές / μεταλλάξεις σε ένα script python όπου επιλέγουμε τα χαρακτηριστικά εισαγωγής βάση συγκεκριμένων κριτηρίων που περιγράφονται στο κεφάλαιο Experiment 1 (υποενότητα Data), Experiment 2 (υποενότητα Data) και Experiment 3 (υποενότητα Data). Αφού επιλέξουμε τα δεδομένα, διαμορφώνουμε τη context λίστα με τα δεδομένα και ένα target context για κάθε παραλλαγή πολυμορφισμού μονού νουκλεοτιδίου (SNP). Στη συνέχεια, το μοντέλο CBOW εκπαιδεύεται με τα variants contexts που αναφέρονται παραπάνω και μετά από μερικά epochs σχηματίζονται τα βάρη που βρίσκονται μεταξύ του πρώτου επιπέδου και του κρυφού επιπέδου. Εξάγουμε αυτά τα βάρη από το δίκτυο και τα μεταφέρουμε στην Ανάλυση Κύριου Συστατικού (Principal Component Analysis - PCA) για να το απεικονίσουμε με ένα διάγραμμα διασποράς. Το PCA είναι μια τεχνική που χρησιμοποιεί εξελιγμένες μαθηματικές αρχές για τη μετατροπή αρκετών δυνητικά συσχετισμένων μεταβλητών σε μικρότερο αριθμό μεταβλητών που ονομάζονται κύρια συστατικά. Εν συντομία βρίσκει μέχρι τρεις διαστάσεις από δεδομένα με Ν (Ν>3) διαστάσεις. Τέλος, χρησιμοποιήθηκε ομοιότητες με συνημίτονα (Cosine Similarity). Η ομοιότητα συνημίτονων είναι μια ευρέως χρησιμοποιούμενη μέτρηση στην ανάκτηση πληροφοριών και σε σχετικές μελέτες. Η εφαρμογή αυτής της μέτρησης μπορεί να εφαρμοστεί σε δύο κείμενα (πρόταση, παράγραφος ή ολόκληρο το έγγραφο). Όσο υψηλότερη είναι η βαθμολογία ομοιότητας μεταξύ του διανύσματος όρου εγγράφου και του διανύσματος όρου ερωτήματος, τόσο μεγαλύτερη είναι η συνάφεια μεταξύ του εγγράφου και του ερωτήματος. Μόλις πάρουμε ένα SNP ως δείγμα και το περάσουμε μέσω ομοιότητας συνημίτονου, μπορούμε να βρούμε άλλα SNP κοντά σε αυτό που αναμένουμε να είναι πιο όμοια, έτσι υπάρχει πιθανότητα αυτή η μετάλλαξη να επηρεάσει το δείγμα μας. Εφαρμόσαμε αυτήν τη μεθοδολογία σε τρία πειράματα. Το πρώτο ήταν για την αναπαράσταση και την ομαδοποίηση των παραλλαγών του ανθρώπινου χρωμοσώματος 22. Σε αυτό το πείραμα προσπαθούμε να βρούμε συσχέτιση μεταξύ τυχαίων SNP και να τα επαληθεύσουμε. Λόγω του μεγάλου όγκου δεδομένων και του χρόνου επεξεργασίας ήταν δύσκολο να έχουμε μια την καλύτερη εικόνα των αποτελεσμάτων. Έτσι, προχωρήσαμε στο δεύτερο και τρίτο πείραμα με λιγότερα δεδομένα που στοχεύουν σε μια ασθένεια, συγκεκριμένα σε μεταλλάξεις καρκίνου και πιθανές μεταλλάξεις καρκίνου. Τα αποτελέσματα του μοντέλου είναι πολλά υποσχόμενα και πιστεύουμε ότι μια τέτοια μεθοδολογία θα μπορούσε να χρησιμοποιηθεί στην περιοχή της γονιδιωματικής.