Μετα-αξιολόγηση μεγάλων γλωσσικών μοντέλων-LLMS με την χρήση των μεθόδων AHP και FAHP.
Φόρτωση...
Ημερομηνία
2025-06-08
Συγγραφείς
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
ΕΛΜΕΠΑ, Σχολή Επιστημών Διοίκησης και Οικονομίας (ΣΕΔΟ), ΠΜΣ Διοίκηση και Ψηφιακός Μετασχηματισμός
Επιβλέπων
Περίληψη
Η διάδοση και η χρήση των LLMs (Large Language Models-Μεγάλα Γλωσσικά Μοντέλα) σε πολλούς τομείς των επιστημών έχει κεντρίσει των ενδιαφέρον πολλών ερευνητών σχετικά με την απόδοση αυτών και την επιλογή των κατάλληλων μοντέλων ανάλογα με τις εφαρμογές που χρησιμοποιούνται. Στην παρούσα εργασία έγινε μέτρηση και εκτίμηση απόδοσης τριών γνωστών μεγάλων γλωσσικών μοντέλων (Phi, Mistral, Gemma) σύμφωνα με ερώτηση που έχει σχέση με την σύνταξη εντολής της γλώσσας προγραμματισμού Python ('What is the command to print output in Python?') και συγκεκριμένα με την εφαρμογή του Ollama framework (τοπική εκτέλεση LLMs) και την χρήση στατιστικών μεθόδων με την βοήθεια της γλώσσας προγραμματισμού Python . Οι μετρήσεις βασίζονται στον καθορισμό κριτηρίων απόδοσης των LLMs (π.χ. ακρίβεια, ταχύτητα εκτέλεσης κ.ά.) που στην συνέχεια με την χρήση των μεθόδων AHP (Analytical Hierarchy Process- Διαδικασία Αναλυτικής Ιεράρχησης) και FAHP (Fuzzy Analytical Hierarchy Process-Ασαφής Διαδικασία Αναλυτικής Ιεράρχησης) έγινε μετα- αξιολόγηση των μοντέλων με σκοπό την εύρεση του καταλληλότερου μοντέλου για το παράδειγμα μας. Οι μετρήσεις και με τις δύο μεθόδους έδειξαν παρόμοια αποτελέσματα με τα δύο μοντέλα (Phi, Mistral) να υπερτερούν σαφώς σε σχέση με το τρίτο Gemma). Η χρήση περισσότερων ερωτήσεων και περισσότερων κριτηρίων αλλά και ο έλεγχος παραπάνω LLMs μπορεί να αποτελέσει αντικείμενο συνέχειας της έρευνας μας.
The proliferation and use of LLMs (Large Language Models) in many fields of science has attracted the interest of many researchers on their performance and the choice of appropriate models depending on the applications used. In this paper, we measured and evaluated the performance of three well-known large language models (Phi, Mistral, Gemma) against a question related to Python programming language command syntax ('What is the command to print output in Python?') by applying the Ollama framework (local execution of LLMs) and using statistical methods with the help of Python programming language. The measurements are based on the definition of performance criteria of LLMs (e.g., accuracy, execution speed, etc.) which then using AHP (Analytical Hierarchy Process) and FAHP (Fuzzy Analytical Hierarchy Process) methods were used to meta-evaluate the models in order to find the most suitable model for our example. The measurements with both methods showed similar results with both models (Phi, Mistral) clearly outperforming the third one (Gemma). The use of more questions and more criteria and the testing of more LLMs can be a subject of our follow-up research.
The proliferation and use of LLMs (Large Language Models) in many fields of science has attracted the interest of many researchers on their performance and the choice of appropriate models depending on the applications used. In this paper, we measured and evaluated the performance of three well-known large language models (Phi, Mistral, Gemma) against a question related to Python programming language command syntax ('What is the command to print output in Python?') by applying the Ollama framework (local execution of LLMs) and using statistical methods with the help of Python programming language. The measurements are based on the definition of performance criteria of LLMs (e.g., accuracy, execution speed, etc.) which then using AHP (Analytical Hierarchy Process) and FAHP (Fuzzy Analytical Hierarchy Process) methods were used to meta-evaluate the models in order to find the most suitable model for our example. The measurements with both methods showed similar results with both models (Phi, Mistral) clearly outperforming the third one (Gemma). The use of more questions and more criteria and the testing of more LLMs can be a subject of our follow-up research.
Περιγραφή
Λέξεις-κλειδιά
LLMs, AHP, FAHP, MCDA, OLLAMA, Python