460 likes | 786 Views
Θεωρία Παιγνίων και Εφαρμογές. Θ. Κεχαγιάς Γενικό Τμήμα Πολυτεχνική Σχολή, ΑΠΘ. Πράσινος. C. D. Μπλε. ΔΦ Live. C. D. ΔΦ: Ανάλυση. Πράσινος. C. D. Μπλε. C. D. Για τον Μπλέ: 3<5 και 0<1 άρα C<D Για τον Πρασ.: 3<5 και 0<1 άρα C<D Άρα όλοι παίζουν D. Αλλά ….
E N D
Θεωρία Παιγνίων και Εφαρμογές Θ. Κεχαγιάς Γενικό Τμήμα Πολυτεχνική Σχολή, ΑΠΘ
Πράσινος C D Μπλε ΔΦ Live C D
ΔΦ: Ανάλυση Πράσινος C D Μπλε C D Για τον Μπλέ: 3<5 και 0<1 άρα C<D Για τον Πρασ.: 3<5 και 0<1 άρα C<D Άρα όλοι παίζουν D. Αλλά …
Το Δίλημμα του Φυλακισμένου Πράσινος C D Μπλε Το Αρχικό ΔΦ C D • Δύο ύποπτοι για ληστεία ανακρίνονται από την αστυνομία … • Αν ομολογήσει μόνο ο ένας τον αφήνουν ελεύθερο ο άλλοςτιμωρείται με 5 χρόνια φυλακή. • Αν δεν ομολογήσει κανείς δεν μπορούν να αποδείξουν ότι έκαναν την ληστεία αλλά θα τους καταδικάσουν για παράνομη οπλοφορία, 2 χρόνια τον καθένα. • Αν ομολογήσουν και οι δύο καταδικάζονται και οι δύο, σε 4 χρόνια φυλακή.
Πράσινος C D Μπλε Ένα Παίγνιο Διαφήμισης C D • Δύο εταιρείες πουλούν το ίδιο προϊόν, στην ίδια τιμή. Οι συνολικές πωλήσεις είναι 104 τεμάχια και αποφέρουν κέρδος 6· 104 Euro. • Αν καμμία εταιρεία δεν κάνει διαφημιστική καμπάνια, οι αγοραστές μοιράζονται εξίσου μεταξύ των δύο. • Αν μόνο η Πράσινη εταιρεία κάνει διαφημιστική καμπάνια όλοι οι αγοραστές θα προτιμήσουν το προϊόν της … αλλά η καμπάνια στοιχίζει 104 Euro. • Αν και η Πράσινη και η Μπλε εταιρεία κάνει διαφημιστική καμπάνια, οι αγοραστές δεν θα αλλάξουν προμηθευτή.
Δύο χρήστες θέλουν να στείλουν ο καθένας το δικό τους μήνυμα. Υπάρχει μόνο ένα διαθέσιμο κανάλι. • Το κόστος αποστολής είναι 0.1 Euro. • Αν μόνο ο Πράσινος στείλει το μήνυμα του, θα έχει κέρδος 1 Euro. • Αν και ο Πράσινος και ο Μπλε στείλουν μήνυμα, το κανάλι θα μπλοκάρει και κανένα μήνυμα δεν θα περάσει. Ένα Παίγνιο Τηλεπικοινωνιών Πράσινος C D Μπλε C Τηλεπικοινωνίες (Channel Access) D
Πράσινος C D Μπλε Και Άλλα Παίγνια C Η Μάχη των Φύλων D Πράσινος C D Μπλε C Chicken D
Πράσινος C D Μπλε Παίγνια Μηδενικού Αθροίσματος C D Πράσινος C D Μπλε C D
Πράσινος C D Μπλε Παίγνια Μηδενικού Αθροίσματος C D Πράσινος C D Μπλε C D
Επαναλαμβανόμενο ΔΦ Πράσινος C D Μπλε C D Εδώ είναι ο πίνακας για το παίγνιο που αποτελείται από δύο γύρους ΔΦ.
Θεωρία Παιγνίων: Η μαθηματική θεωρία της σύγκρουσης και της συνεργασίας Ότι είναι η Θεωρία Πιθανοτήτων για τα παίγνια τύχης, είναι η Θεωρία Παιγνίων για τα στρατηγικά παίγνια Θεωρία Παιγνίων
Κεντρική Βελτιστοποίηση: Ενας «παίκτης» επιλέγει x1, x2 για να μεγιστοποιήσει την f(x1, x2) Κατανεμημένη Βελτιστοποίηση:Ο «παίκτης» 1 επιλέγει την x1, για να μεγιστοποιήσει την f (x1, x2)και ο «παίκτης» 2 επιλέγει την x2, για να μεγιστοποιήσει την f (x1, x2). Εγωιστική Βελτιστοποίηση:Ο «παίκτης» 1 επιλέγει την x1, για να μεγιστοποιήσει την f1(x1, x2) και ο «παίκτης» 2 επιλέγει την x2, για να μεγιστοποιήσει την f2(x1, x2). Θεωρία Παιγνίων
Οικονομία (καρτέλ, ολιγοπώλια, διαφημιστικές εκστρατείες) • Κούρσα εξοπλισμών (π.χ. Ελλάδα-Τουρκία) • Χρήση προηγμένων τεχνολογιών πληροφορικής (ΔΦ με Ν παίκτες, μεγάλο Ν). • Linux vs. Windows • C vs. Fortran • Peer-To-Peer (να ανοίξω τον HD μου ή όχι?). • Χρηματοδότηση έρευνας. • Εκπαιδευτικές Εφαρμογές • Κλέψιμο στις εξετάσεις. • Πληθωρισμός βαθμών • Κάθε περίπτωση στην οποία περισσότεροι του ενός παίκτες προσπαθούν να βελτιστοποιήσουν ο καθένας την δική του συνάρτηση κέρδους. Εφαρμογές της Θεωρίας Παιγνίων
Διάφορα Παίγνια • Φτηνές υπεραστικές κλήσεις μετά τις 23:00 και συμφόρηση γραμμών. Πότε να πάρω τηλέφωνο, πριν ή μετά τις 23:00? • Pennypot: Δύο παίκτες εναλάσσονται, σε κάθε γύρο ο ένας εκ των δύο ή προσθέτει ένα ευρώ στην μπάνκα ή παίρνει όλα τα ευρώ. • ΔΦ με ανταλλαγές αγαθών (Hofstadter 716) • Γιατί στα στρατόπεδα συγκέντρωσης οι έγκλειστοι δεν επιτέθηκαν στου φρουρούς? • Κανείς δεν θέλει να είναι στην πρώτη γραμμή σε μια διαδήλωση, αν όμως δεν σχηματιστεί πρώτη γραμμή δεν θα υπάρχει διαδήλωση. • Κυκλοφοριακά: τήρηση/παραβίαση του κόκκινου, οδήγηση σε μια πλευρά του δρόμου. • Γενικότερα: εγκαθίδρυση προτύπων, κανονισμών, (άγραφων) νόμων, ηθικής. • Ειδικότερα: σταθεροποίηση γλώσσας. • Παιχνίδια με μάθηση. • Παιχνίδια με χωρική δομή.
Παίγνια Μηδενικού Αθροίσματος Μέγιστο ελάχιστο κέρδος του Α Ελάχιστη μέγιστη ζημία του Β Σαγματικό σημείο (saddle point)
Παράδειγμα 1 (έχει Minimax λύση) Λύση Minimax με Καθαρές Στρατηγικές Παράδειγμα 2 (ΔΕΝ έχει Minimax λύση)
Οι μικτές στρατηγικές είναι κατανομές πιθανοτήτων Το προσδοκώμενο κέρδος του Α είναι: Λύση Minimax με Μικτές Στρατηγικές Θεώρημα Minimax:Για κάθε παίγνιο μηδενικού αθροίσματος υπάρχουν p*,q*τ.ω. Η αξία του παιγνίου για τον Α ισούται με και επιτυγχάνεται όταν
Παράδειγμα με Μικτές Στρατηγικές =1/5 =3/5 =17/5 Η αξία του παιγνίου για τον Α ισούται με
Μια στρατηγικήείναι σημείο ισορροπίαςNash ανν για κάθε παίκτη i Παίγνια Μη Μηδενικού Αθροίσματος: Ισορροπία Nash όπου: Κέρδος του παίκτη i στρατηγική του παίκτη i Η βέλτιστη απόκριση του παίκτη i στις στρατηγικές s-iείναι η στρατηγική siη οποία ικανοποιεί: Σημείο ισορροπίας Nash :Ένα σύνολο αμοιβαία βέλτιστων αποκρίσεων Ένα παίγνιο μπορεί να έχει περισσότερα από ένα σημεία ισορροπίας Nash
Θεώρημα: Κάθε πεπερασμένο παίγνιο Ν παικτών έχει τουλάχιστον ένα σημείο ισορροπίας Nash (στον χώρο των μικτών στρατηγικών). Προσοχή: Ένα παίγνιο μπορεί να έχει περισσότερα από ένα σημεία ισορροπίας Nash
Μια στρατηγικήs(1)υπερέχει κατά Pareto της s(2) ανν για κάθε παίκτη i Παίγνια Μη Μηδενικού Αθροίσματος:Βελτιστότητα Pareto Μια στρατηγικήs*είναι Pareto βέλτιστη ανν δεν υπάρχει στρατηγική s η οποία υπερέχει της s*κατά Pareto. Δηλ. ένα σημείο είναι Pareto βέλτιστο ανν κανείς παίκτης δεν μπορεί να βελτιώσει το κέρδος του χωρίς να ελαττώσει το κέρδος κάποιου άλλου παίκτη
Εφαρμογή στο ΔΦ Πράσινος C D Μπλε C D Nash
Green Βελτιστότητα στο Παίγνιο της Βαθμολόγησης Θέλω Δεν θέλω Blue Δεν Θέλω Θέλω Nash
Παίγνια σε Δίκτυα Ασύρματης Επικοινωνίας D2 D1 S2 S1
Πράσινος Blue Το Δίλημμα της Προώθησης ? ? Πράσινος Forward Drop Μπλέ Forward Drop Το κόστος αποστολής είναι c, το κέρδος από επιτυχή μετάδοση είναι 1.
Πράσινος Forward Drop Μπλέ Το Δίλημμα της Προώθησης Forward Drop Η στρατηγική Drop επικρατεί της Forward, αν και η αμοιβαία Forward θα έδινα καλύτερο αποτέλεσμα. Το αποτέλεσμα είναι η τραγωδία των βοσκοτόπων (Hardin, 1968)
? ? Πράσινος Μπλέ Το Δίλημμα της Συνδυασμένης Προώθησης Προορισμός Πηγή Πράσινος Forward Drop Μπλέ • Το κέρδος επιτυχούς μετάδοσης είναι 1 • Το κόστος προώθησης είναι c (0 < c << 1) Forward Drop Δεν υπάρχει επικρατούσα στρατηγική ….
Πράσινος Ισορροπία Nash Forward Drop Μπλέ Το δίλημμα της προώθησης Forward Drop Πράσινος Forward Drop Μπλέ Το δίλημμα της συνδυασμένης προώθησης Forward Drop
Πράσινος Forward Drop Μπλέ «Αποδοτικότητα» της Ισορροπίας Nash Forward Drop Δύο σημεία Nash, το ένα είναι Pareto βέλτιστο …
Time-division channel Το Παιχνίδι Πολλαπλής Πρόσβασης Πράσινος Quiet Transmit Μπλέ Quiet Transmit
p: Πιθανότητα να εκπέμψει ο Μπλε q: Πιθανότητα να εκπέμψει ο Πράσινος Το Παιχνίδι Πολλαπλής Πρόσβασης Σημείο Nash
Πομπός Δύο κανάλια, C1και C2 Το Παιχνίδι Παρεμβολής Παρεμβολέας Πράσινος C2 C1 Μπλέ C1 C2 Δεν υπάρχει σημείο Nash στις καθαρές στρατηγικές, αλλά το p=1/2, q=1/2 είναι σημείο Nash στις μικτές στρατηγικές
Επανειλημμένη αλληλεπίδραση μεταξύ των παικτών • Στρατηγική: προσδιορίζει την επόμενη κίνηση ως συνάρτηση των προηγούμενων • Παίγνια πεπερασμένου ή άπειρου ορίζοντα Επαναλαμβανόμενα Παίγνια
Μυωπική: Συνάρτηση Κέρδους σε Επαν. Παίγνια Μακρόπνοη, πεπερασμένη: Μακρόπνοη, άπειρη: Μακρόπνοη, άπειρη, με απόσβεση: Ο συντελεστής απόσβεσης
Συνήθως οι στρατηγικές εξαρτώνται από το προηγούμενο βήμα μόνο: • Την κίνηση του συμπαίκτη: • Την κίνηση του ίδιου του παίκτη: • Το κέρδος: Στρατηγικές σε Επαν. Παίγνια Π.χ. στο Παίγνιο Προώθησης:
? Πράσινος Μπλέ Το Επαν. Παιχνίδι της Προώθησης ? Πράσινος Forward Drop Μπλέ Forward Drop Κέρδος κάθε γύρου
Άπειρο παίγνιο με απόσβεση: Το Επαν. Παιχνίδι της Προώθησης
Ανάλυση Το AllC έχει καλό κέρδος όταν παίζει με AllC και με TFT, αλλά το AllD εκμεταλλεύεται το AllC. Το AllD έχει μικρό κέρδος όταν παίζει με AllD. Το TFT πάει καλά με το AllC και με το AllDκαι εκδικείται το AllD Το TFT είναι η καλύτερη στρατηγική όταν το ωείναι κοντά στο 1!
Ανάλυση Θεώρημα:Στο επαναλ. Παίγνιο προώθησης, το (AllD, AllD)είναι σημείο Nash. Θεώρημα:Στο επαναλ. Παίγνιο προώθησης, το (TFT , TFT)είναι σημείο Nash το οποίο είναι και Pareto βέλτιστο.
http://en.wikipedia.org/wiki/Game_theory • http://users.auth.gr/~kehagiat/GameTheory/index.html • J.D. Williams, The Compleat Strategyst, 1954. • Γ. Βαρουφάκης , Θεωρία παιγνίων, 2007. • R. Axelrod, The Evolution of Cooperation. • JW Weibull , Evolutionary game theory. 1997. • Μ. Felegyhazi + J.P. Hubaux, “Game Theory in Wireless Networks: a Tutorial”, IEEE, 2005. • M Felegyhazi, M Cagalj, SS Bidokhti , “Noncooperative multi-radio channel allocation in wireless networks”, Proceedings of the IEEE, 2007. • AB MacKenzie, SB Wicker . «Game theory and the design of self-configuring, adaptive wireless networks». IEEE Communications Magazine, 2001. • Srivastava et al., “Using Game Theory to Analyze Wireless Ad Hoc Networks”, 2006. • H.Tembine, E Altman, R El-Azouzi . “Multiple access game in ad-hoc network”, 2007. • G Thamilarasu, R Sridhar , “Game Theoretic Modeling of Jamming Attacks in Ad hoc Networks”, 2009. • Y Xiao, X Shan, Y Ren . «Game theory models for IEEE 802.11 DCF in wireless ad hoc networks», IEEE Communications Magazine, 2005. Βιβλιογραφία