Learning-based control of multi-agent systems
Φόρτωση...
Ημερομηνία
2025-03-12
Συγγραφείς
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
ΕΛΜΕΠΑ, Σχολή Μηχανικών (ΣΜΗΧ), Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Περίληψη
In this thesis, we develop a set of algorithms capable of learning and controlling
unknown system dynamics of Multi-Agent Systems (MAS). Our key contribution
is ensuring that we learn control while ensuring the safety of the MAS. In contrast
to traditional Reinforcement Learning (RL) and neural network techniques, our
algorithms are sample-efficient and assume no prior model knowledge. This enables
our algorithms to operate directly on the hardware, mitigating modeling and
sim—to—real transfer concerns.
We employ Bayesian optimization (BO) and Gaussian processes (GPs) to model
the surrogate function under approximation. Herein, we formulate our task as
a cooperative Markov Decision Process (MDP) environment and quantify the
performance of each experiment as a scalar reward. In our setting, the agents are
heterogeneous and autonomous; we, therefore, need to learn separate policies for
each agent. This entails a distributed framework approach, that scales to larger
MAS while reducing dependency on communication. Our first approach uses local
rewards to decipher the rewarding actions w.r.t the global reward and GPs to
predict the optimal parameters for each agent. Consequently, with our second
approach, we constraint optimization under the critical aspect of safety and utilize
only a single communication instance to update the agent policies.
The proposed approaches are evaluated using simulated and hardware experiments.
Our results show that both algorithms succeed in learning the unknown objective
in very few iterations, showing competitive results to prior techniques. In addition,
compared to the current state—of—the—art algorithm, our approach improves in
predicting higher rewards in the same number of iterations. The research concludes
by providing useful insights toward safe MARL.
Σε αυτή τη διατριβή, αναπτύσσουμε ένα σύνολο αλγορίθμων ικανών να μαθαίνουν και να ελέγχουν άγνωστης δυναμικής του συστήματος των πολυπρακτορικών συστημάτων (ΣΠΣ). Η βασική μας συνεισφορά είναι να εξασφαλίσουμε ότι μαθαίνουμε τον έλεγχο διασφαλίζοντας ταυτόχρονα την ασφάλεια του MAS. Σε αντίθεση με τις παραδοσιακές τεχνικές ενισχυτικής μάθησης (ΕΜ) και νευρωνικών δικτύων, οι δικοι μας αλγόριθμοι είναι αποδοτικοί ως προς το δείγμα και δεν προϋποθέτουν προηγούμενη γνώση του μοντέλου. Αυτό επιτρέπει τους αλγορίθμους μας να λειτουργούν απευθείας στο υλικό, μετριάζοντας τη μοντελοποίηση και την προσομοίωσης σε πραγματική μεταφορά. Χρησιμοποιούμε την Μπεϋζιανή βελτιστοποίηση (ΜΒ) και τις Γκαουσιανές διαδικασίες (ΓΔ) για να μοντελοποιήσουμε την υποκατάστατη συνάρτηση υπό προσέγγιση. Εδώ, διατυπώνουμε το έργο μας ως ένα συνεργατικό περιβάλλον διαδικασίας απόφασης Markov (MDP) και ποσοτικοποιούμε την απόδοση κάθε πειράματος ως κλιμακωτή ανταμοιβή. Στο περιβάλλον μας, οι πράκτορες είναι ετερογενείς και αυτόνομοι- επομένως, πρέπει να μάθουμε ξεχωριστές πολιτικές για κάθε πράκτορα. Αυτό συνεπάγεται κατανεμημενη προσεγγιση, η οποία κλιμακώνεται σε μεγαλύτερα ΣΠΣ, μειώνοντας παράλληλα την εξάρτηση από την επικοινωνία. Η πρώτη μας προσέγγιση χρησιμοποιεί τοπικές ανταμοιβές για την αποκρυπτογράφηση των οφελημων ενεργειών σε σχέση με την κοινη ανταμοιβή και ΓΔ για να προβλέψουμε τις βέλτιστες παραμέτρους για κάθε πράκτορα. Κατά συνέπεια, με τη δεύτερη προσέγγιση, περιορίζουμε τη βελτιστοποίηση υπό την κρίσιμη πτυχή της ασφάλειας και χρησιμοποιούμε μόνο ενα στιγμιοτυπο επικοινωνίας για την ενημέρωση των πολιτικών των πρακτόρων.Οι προτεινόμενες προσεγγίσεις αξιολογούνται χρησιμοποιώντας πειράματα προσομοίωσης και υλικού.Τα αποτελέσματά μας δείχνουν ότι και οι δύο αλγόριθμοι καταφέρνουν να ανταπεξελθουν στο στοχο σε πολύ λίγες επαναλήψεις, παρουσιάζοντας ανταγωνιστικά αποτελέσματα σε σχέση με προηγούμενες τεχνικές. Επιπλέον, σε σύγκριση με τον τρέχοντα αλγόριθμο τελευταίας τεχνολογίας, η προσέγγισή μας βελτιώνει στην πρόβλεψη υψηλότερων ανταμοιβών στον ίδιο αριθμό επαναλήψεων. Η έρευνα καταλήγει στα εξής συμπεράσματα παρέχοντας χρήσιμες πληροφορίες για την ασφαλή ΕΜ σε ΣΠΣ.
Σε αυτή τη διατριβή, αναπτύσσουμε ένα σύνολο αλγορίθμων ικανών να μαθαίνουν και να ελέγχουν άγνωστης δυναμικής του συστήματος των πολυπρακτορικών συστημάτων (ΣΠΣ). Η βασική μας συνεισφορά είναι να εξασφαλίσουμε ότι μαθαίνουμε τον έλεγχο διασφαλίζοντας ταυτόχρονα την ασφάλεια του MAS. Σε αντίθεση με τις παραδοσιακές τεχνικές ενισχυτικής μάθησης (ΕΜ) και νευρωνικών δικτύων, οι δικοι μας αλγόριθμοι είναι αποδοτικοί ως προς το δείγμα και δεν προϋποθέτουν προηγούμενη γνώση του μοντέλου. Αυτό επιτρέπει τους αλγορίθμους μας να λειτουργούν απευθείας στο υλικό, μετριάζοντας τη μοντελοποίηση και την προσομοίωσης σε πραγματική μεταφορά. Χρησιμοποιούμε την Μπεϋζιανή βελτιστοποίηση (ΜΒ) και τις Γκαουσιανές διαδικασίες (ΓΔ) για να μοντελοποιήσουμε την υποκατάστατη συνάρτηση υπό προσέγγιση. Εδώ, διατυπώνουμε το έργο μας ως ένα συνεργατικό περιβάλλον διαδικασίας απόφασης Markov (MDP) και ποσοτικοποιούμε την απόδοση κάθε πειράματος ως κλιμακωτή ανταμοιβή. Στο περιβάλλον μας, οι πράκτορες είναι ετερογενείς και αυτόνομοι- επομένως, πρέπει να μάθουμε ξεχωριστές πολιτικές για κάθε πράκτορα. Αυτό συνεπάγεται κατανεμημενη προσεγγιση, η οποία κλιμακώνεται σε μεγαλύτερα ΣΠΣ, μειώνοντας παράλληλα την εξάρτηση από την επικοινωνία. Η πρώτη μας προσέγγιση χρησιμοποιεί τοπικές ανταμοιβές για την αποκρυπτογράφηση των οφελημων ενεργειών σε σχέση με την κοινη ανταμοιβή και ΓΔ για να προβλέψουμε τις βέλτιστες παραμέτρους για κάθε πράκτορα. Κατά συνέπεια, με τη δεύτερη προσέγγιση, περιορίζουμε τη βελτιστοποίηση υπό την κρίσιμη πτυχή της ασφάλειας και χρησιμοποιούμε μόνο ενα στιγμιοτυπο επικοινωνίας για την ενημέρωση των πολιτικών των πρακτόρων.Οι προτεινόμενες προσεγγίσεις αξιολογούνται χρησιμοποιώντας πειράματα προσομοίωσης και υλικού.Τα αποτελέσματά μας δείχνουν ότι και οι δύο αλγόριθμοι καταφέρνουν να ανταπεξελθουν στο στοχο σε πολύ λίγες επαναλήψεις, παρουσιάζοντας ανταγωνιστικά αποτελέσματα σε σχέση με προηγούμενες τεχνικές. Επιπλέον, σε σύγκριση με τον τρέχοντα αλγόριθμο τελευταίας τεχνολογίας, η προσέγγισή μας βελτιώνει στην πρόβλεψη υψηλότερων ανταμοιβών στον ίδιο αριθμό επαναλήψεων. Η έρευνα καταλήγει στα εξής συμπεράσματα παρέχοντας χρήσιμες πληροφορίες για την ασφαλή ΕΜ σε ΣΠΣ.
Περιγραφή
Λέξεις-κλειδιά
Multi-Agent system, Machine learning, Reinforcement learning, Πολυπρακτορικό σύστηµα, Μηχανική μάθηση, Ενισχυτική μάθηση