Design and development of a web-based data visualization software for political tendency identification of Twitter’s users using Python Dash Framework.

ΕΛ.ΜΕ.ΠΑ., Σχολή Μηχανικών (ΣΜΗΧ), ΠΜΣ Πληροφορική και Πολυμέσα
H.M.U., School of Engineering (ScENG) MSc in Informatics & Multimedia
The rapid evolution of computers as well as the emerge of the internet brought a new era on the field of communication systems. Many individuals can instantly communicate with each other (through instant messaging or through a video conference). This technological breakthrough set the stage for the emerge of the first internet communities. As a result, social media platforms emerged, were a set of free services is provided such as the interactive communication, multimedia content uploading etc. This new type of communication shapes the way by which an opinion can be expressed. Twitter is the most popular microblogging platform since its users can post a text of 280 maximum characters for a variety of subjects such as famous brands - products, celebrities, prominent events including political ones. As a result, Twitter is a tool that politicians tend to use frequently as it is a source for obtaining voters. This master thesis presents a web-based application that will use Twitter's API in order to obtain the most recent Tweets of the top three Greek political leaders and thus identify their additional popularity. To achieve this a set sample of recent posted tweets will be obtained (e.g. 200 tweets) from their additional Twitter accounts. These tweets will be processed in order to extract structured and unstructured data and present them in a form of graph series through a web-page. The structure of this web-based application consists of a frontend part created with HTML/CSS and a back-end mechanism which is developed using Python and Dash framework for the visualization process as well as Tweepy module for the application’s intercommunication with Twitter’s servers in order to obtain the data. More specifically the extracted information will be the number of likes, re-tweets and characters per posted tweet as well as the number of followers where they have. Furthermore, sentiment analysis of the tweet’s text is identified and visualized, using the Greek version of SpaCy module and labeled according to their corresponding expressed emotion. The extracted data will be used in order to display a set of charts that will present a comparison between these three political leaders. The research purpose of this dissertation is to present an engineering perspective on what data can mined from Twitter, how these data can be useful in order to estimate a political result as well as well as presenting the capabilities of Python Dash framework, Tweepy and SpaCy modules.
Η ραγδαία εξέλιξη των υπολογιστών καθώς και η ανακάλυψη του διαδίκτυού (Internet) έφεραν μια νέα εποχή στο χώρο των επικοινωνιακών συστημάτων. Πολλά άτομα μπορούν να επικοινωνήσουν απευθείας μεταξύ τους σε πραγματικό χρόνο (μέσω μηνυμάτων ή τηλεδιάσκεψης). Αυτή η τεχνολογική ανακάλυψη έθεσε τα θεμέλια για τον ερχομό των πρώτων διαδικτυακών κοινοτήτων. Κατά συνέπεια, δημιουργήθηκαν οι πρώτες διαδικτυακές πλατφόρμες επικοινωνίας (social media platforms) όπου παρέχουν ένα σύνολο από δια-δραστικές υπηρεσίες οι οποίες διατίθενται χωρίς χρέωση ως προς τον χρήστη. To Twitter είναι η πιο γνωστή micro-blogging πλατφόρμα κοινωνικής δικτύωσης στο διαδίκτυο (internet) όπου οι χρήστες της μπορούν να αναρτήσουν ένα κείμενο με μέγεθος έως 280 χαρακτήρων για διάφορα θέματα όπως διάσημες μάρκες προϊόντων, διάσημους, διάσημες εκδηλώσεις συμπεριλαμβανομένων και των πολιτικών συγκεντρώσεων. Κατά συνέπεια το Twitter είναι ένα κοινωνικό μέσο δικτύωσης που οι πολιτικοί χρησιμοποιούν σε καθημερινή βάση για να επηρεάσουν το κοινό και να αποκτήσουν ψηφοφόρους ή υποστηρικτές. Αυτή η μεταπτυχιακή εργασία παρουσιάζει τον Abstract σχεδιασμό και υλοποίηση μιας διαδικτυακής εφαρμογής που χρησιμοποιεί το API του Twitter για να αποκτήσει ένα δυναμικό δείγμα πρόσφατων 600 Tweets που έχουν αναρτήσει οι τρείς πιο δημοφιλείς πολιτικοί αρχηγοί στην Ελλάδα και να ανιχνεύσει πόσο δημοφιλείς είναι (200 tweets ανά λογαριασμό twitter). Εν συνεχεία η εφαρμογή επεξεργάζεται αυτό το σύνολο των tweets έτσι ώστε να αποκτηθούν τα structured και unstructred δεδομένα. Με τον όρο structured αναφερόμαστε στα tweets που μπορούμε να αποκτήσουμε κατευθείαν από το API του Twitter (όπως likes, re-tweets, αριθμό συνδρομητών ανά λογαριασμό κλπ) ενώ με τον όρο unstructured αναφερόμαστε σε δεδομένα που δεν μπορούμε να αποκτήσουμε κατευθείαν από το API του Twitter (όπως το πόσο θετικό ή αρνητικό είναι το ύφος του κειμένου). Για την επεξεργασία των unstructured δεδομένων χρησιμοποιήθηκε το spaCy σε συνδυασμό με ένα lexicon το οποίο είναι ειδικά σχεδιασμένο για political sentiment analysis. Έπειτα τα δεδομένα αυτά χρησιμοποιούνται για οπτικοποίηση (visualization) χρησιμοποιώντας το Python Dash Framework.