Towards a situational awareness-oriented network intrusion detection system

Φόρτωση...
Μικρογραφία εικόνας
Ημερομηνία
2025-02-26
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
ΕΛΜΕΠΑ, Σχολή Μηχανικών (ΣΜΗΧ), ΠΜΣ Μηχανικών Πληροφορικής
Περίληψη
In recent years, cyber-attacks have rapidly increased and become more and more sophisticated. As a result, the detection of malicious activity in cyberspace has become a complex task. Machine learning (ML)-based Network Intrusion Detection Systems (NIDS) are one of the most promising areas of study that can aid in discovering and assessing malicious activities. Such systems utilize specially created datasets to train their ML algorithms and eventually predict if an attack is occurring or not. Most ML-based NIDSs are trained on network-only data, therefore system or firewall logs, which may give critical cybersecurity incident information, are seldom used. To the best of our knowledge, a dataset that fuses such heterogeneous data for ML-based NIDS applications is not yet proposed. This thesis proposes a heterogeneous dataset that consists of three different types of data, namely: network traffic data, information stemming from a vulnerability assessment tool, and system logs. The network part of the dataset comprises NetFlow network protocol data [1]. Regarding the vulnerability part, an extra feature has been added to the dataset indicating the existence or not of any system vulnerability. Moreover, the system logs that have been added to the dataset were interpreted into numerical scores, through sentiment analysis by using Natural Language Processing (NLP). The aforementioned different types of data were time-correlated and fused into a single heterogeneous dataset. The proposed dataset was used to train six (6) ML algorithms, and the prediction results from this procedure were used to evaluate it as a training dataset. KDD'99 and CCD-IDSv1 were also utilized to train the same ML algorithms, and their prediction results were compared to those of the proposed dataset. Finally, the findings showed that the ML models trained with the suggested heterogeneous dataset had higher post-training accuracy predictions.
Τα τελευταία χρόνια, οι επιθέσεις στον κυβερνοχώρο έχουν αυξηθεί ραγδαία και γίνονται όλο και πιο περίπλοκες. Ως αποτέλεσμα, η ανίχνευση κακόβουλης δραστηριότητας στον κυβερνοχώρο έχει καταστεί πολύπλοκη εργασία. Τα συστήματα ανίχνευσης εισβολής δικτύου (NIDS) που βασίζονται στη μηχανική μάθηση (ML) είναι ένας από τους πιο πολλά υποσχόμενους τομείς μελέτης που μπορούν να βοηθήσουν στην ανακάλυψη και την αξιολόγηση κακόβουλων δραστηριοτήτων. Τέτοια συστήματα χρησιμοποιούν ειδικά δημιουργημένα σύνολα δεδομένων για να εκπαιδεύσουν τους αλγόριθμους ML τους και τελικά να προβλέψουν εάν συμβαίνει μια επίθεση ή όχι. Τα περισσότερα NIDS που βασίζονται σε ML εκπαιδεύονται σε δεδομένα μόνο δικτύου, επομένως σπάνια χρησιμοποιούνται αρχεία καταγραφής συστήματος ή τείχους προστασίας, τα οποία μπορεί να παρέχουν κρίσιμες πληροφορίες περιστατικών ασφάλειας στον κυβερνοχώρο. Από όσο γνωρίζουμε, δεν έχει προταθεί ακόμη ένα σύνολο δεδομένων που συνδυάζει τέτοια ετερογενή δεδομένα για εφαρμογές NIDS που βασίζονται σε ML. Αυτή η διατριβή προτείνει ένα ετερογενές σύνολο δεδομένων που αποτελείται από τρεις διαφορετικούς τύπους δεδομένων, συγκεκριμένα: δεδομένα κίνησης δικτύου, πληροφορίες που προέρχονται από ένα εργαλείο αξιολόγησης ευπάθειας και αρχεία καταγραφής συστήματος. Το τμήμα δικτύου του συνόλου δεδομένων περιλαμβάνει δεδομένα πρωτοκόλλου δικτύου NetFlow. Όσον αφορά το τμήμα ευπάθειας, έχει προστεθεί ένα επιπλέον χαρακτηριστικό στο σύνολο δεδομένων που υποδεικνύει την ύπαρξη ή όχι κάποιας ευπάθειας συστήματος. Επιπλέον, τα αρχεία καταγραφής συστήματος που έχουν προστεθεί στο σύνολο δεδομένων ερμηνεύτηκαν σε αριθμητικές βαθμολογίες, μέσω ανάλυσης συναισθήματος με χρήση της Επεξεργασίας Φυσικής Γλώσσας (NLP). Οι προαναφερθέντες διαφορετικοί τύποι δεδομένων συσχετίστηκαν χρονικά και συγχωνεύτηκαν σε ένα ενιαίο ετερογενές σύνολο δεδομένων. Το προτεινόμενο σύνολο δεδομένων χρησιμοποιήθηκε για την εκπαίδευση έξι (6) αλγορίθμων ML και τα αποτελέσματα πρόβλεψης από αυτή τη διαδικασία χρησιμοποιήθηκαν για την αξιολόγησή του ως σύνολο δεδομένων εκπαίδευσης. Τα KDD'99 και CCD-IDSv1 χρησιμοποιήθηκαν επίσης για την εκπαίδευση των ίδιων αλγορίθμων ML και τα αποτελέσματα πρόβλεψής τους συγκρίθηκαν με εκείνα του προτεινόμενου συνόλου δεδομένων. Τέλος, τα ευρήματα έδειξαν ότι τα μοντέλα ML που εκπαιδεύτηκαν με το προτεινόμενο ετερογενές σύνολο δεδομένων είχαν υψηλότερες προβλέψεις ακρίβειας μετά την εκπαίδευση.
Περιγραφή
Λέξεις-κλειδιά
Deep learning, Data analysis, Intrusion detection system, Cyberattack, Βαθιά μάθηση, Ανάλυση δεδομένων, Σύστημα ανίχνευσης εισβολών, Κυβερνοεπίθεση
Παραπομπή