Πέμπτη 28 Απριλίου 2016

"Το δίλημμα του φυλακισμένου"

 

Το δίλημμα του φυλακισμένου αποτελεί γνωστό παράδειγμα της θεωρίας των παιγνίων. Μπορεί να χρησιμοποιηθεί ως πρότυπο σε πολλές καταστάσεις του πραγματικού κόσμου που αφορούν συμπεριφορές συνεργασίας. Μπορεί να εφαρμοστεί σε καταστάσεις που δεν ταιριάζουν απόλυτα τα κριτήρια των κλασικών ή επαναληπτικών παιχνιδιών. Για παράδειγμα σε αυτά που θα μπορούσαν και οι δύο οντότητες να κερδίσουν σημαντικά οφέλη από τη συνεργασία ή να υποστούν την αποτυχία αν το πράξουν, αλλά θεωρούν αδύνατο ή δαπανηρό να συντονίσουν τις δραστηριότητες τους για την επίτευξη της συνεργασίας.
Το «δίλημμα του φυλακισμένου» εξετάζει τις στρατηγικές επιλογές λογικά σκεπτόμενων παικτών που εμπλέκονται σε ανταγωνιστικές καταστάσεις.


Δύο άτομα συλλαμβάνονται από την αστυνομία σαν ύποπτοι διάπραξης κάποιων εγκλημάτων. H αστυνομία δεν έχει όλα τα απαιτούμενα στοιχεία για να τους κατηγορήσει, οπότε τους βάζει σε χωριστά δωμάτια, εμποδίζοντάς τους να έχουν οποιαδήποτε επικοινωνία. O εισαγγελέας επισκέπτεται και τους δύο, τον καθένα χωριστά, και κάνει στον καθένα την εξής πρόταση:
• Αν καταθέσει εναντίον του άλλου (και ο άλλος δεν μιλήσει) τότε η συνεργασία αμοίβεται με άμεση απελευθέρωση, ενώ ο «άλλος» θα φάει 12 χρόνια.
• Αν δε μιλήσει ούτε αυτός ούτε ο άλλος θα φάνε και οι δύο από 1 χρόνο φυλακή για ήσσονος σημασίας αδικήματα για τα οποία η αστυνομία έχει αποδείξεις.
• Αν καρφώσουν και οι δύο ο ένας τον άλλον τότε θα φάνε 4 χρόνια ο καθένας.

Πίνακας Φυλακισμένων
A / B               Ομολογία        Σιωπή
Ομολογία          4,4                 0,12
Σιωπή               12,0                  1,1


Ποια είναι η αναμενόμενη ορθολογικά «βέλτιστη» στάση του καθενός απ’ τους κρατούμενους; ρωτάει η θεωρία παιγνίων.
Θυμίζουμε ότι «ορθολογισμός» για τους ειδικούς αυτού του μοντέλου είναι να κοιτάει ο καθένας το συμφέρον του, δηλαδή είτε το μέγιστο όφελος είτε την μικρότερη ζημιά του, λαμβάνοντας υπόψη του ότι και ο άλλος (ο «αντίπαλος»…) θα κάνει το ίδιο. Σύμφωνα λοιπόν με την θεωρία, ο κάθε κρατούμενους, ας πούμε ο Α και ο Β, έχει τις πιο κάτω επιλογές:
Με δεδομένο ότι οι κανόνες είναι κοινοί και για τους δύο θεωρούμε ότι και οι δύο κάνουν τις ίδιες λογικές σκέψεις.
Σκέψη του Α:
“Εάν ο Β με καρφώσει τότε τι πρέπει να κάνω; Στην περίπτωση που δεν τον καρφώσω τότε εμπίπτω στον 1ο κανόνα από αυτούς που μας έθεσαν, όντας ο ένοχος και θα φυλακιστώ για 12 χρόνια, ενώ αν τον καρφώσω εμπίπτουμε και οι δύο στον 3ο κανόνα και θα φυλακιστώ για 4. Με συμφέρει λοιπόν να τον καρφώσω.”

” Εάν ο Β δεν με καρφώσει τότε τι πρέπει να κάνω; Στην περίπτωση που τον καρφώσω τότε εμπίπτω στον 1ο κανόνα και θα ελευθερωθώ όντας ο αθώος που συνεργάστηκε, ενώ αν δεν τον καρφώσω εμπίπτουμε και οι δύο στον δεύτερο κανόνα και θα φυλακιστούμε και οι δυο 1 χρόνο. Πάλι με συμφέρει να τον καρφώσω.”
Με αυτές τι λογικές σκέψεις του ο Α ως homo economicus που ενδιαφέρεται πάντα για το μεγαλύτερο για αυτόν όφελος (σε αντίθεση με τον homo reciprocans που κίνητρο του αποτελεί το κοινό όφελος με το περιβάλλον του), αποφασίζει να καρφώσει τον Β διότι τον συμφέρει και στις δύο περιπτώσεις.
Ωστόσο και για τον Β ισχύουν οι ίδιοι κανόνες με συνέπεια να καρφώσει και αυτός τον Α.
Προβλέπουμε λοιπόν ότι από αυτή τη διαδικασία και οι δύο ορθολογικοί άνθρωποι που θέλουν το άμεσο ατομικό τους συμφέρον θα τιμωρηθούν με 4 χρόνια. Αν συνυπολόγιζαν και το όφελος του συγκατηγορούμενού τους ως δικό τους όφελος τότε θα έβγαζαν το συμπέρασμα ότι το μεγαλύτερο όφελος πρέπει να λογίζεται ως συνολικό και είναι τα 2 χρόνια φυλάκισης (1 ο καθένας), σε σχέση με τα 12 χρόνια (12 ο ένας και 0 ο άλλος) αλλά και τα 8 χρόνια (από 4 ο καθένας). Με αυτό στο μυαλό εάν και οι δύο ήταν homo reciprocans, τότε η στρατηγική συνεργασίας τους θα ήταν να μην καρφώσει ο ένας τον άλλο και να λάβουν ποινή από 1 χρόνο ο καθένας. Μέρος ευθύνης της αστοχίας ορισμένων βραβευμένων κατά τ’ άλλα οικονομικών θεωριών, οφείλεται στο ότι θεωρείται ως rational individual (λογικός άνθρωπος) ο homo economicus και οι θεωρίες αυτές μόνο σε αυτή τη βάση αναπτύσσονται. Από την παραπάνω θεώρηση αποδεικνύεται ότι η συνεργασία με τις αμοιβαία επωφελείς στρατηγικές είναι πολλές φορές πιο δόκιμη από την επιδίωξη για άμεσο ατομικό όφελος (1 χρόνος ποινή αντί 4 χρόνια).
Πρέπει να πούμε ότι σε αυτό το παράδειγμα, όπως και σε κάθε κατάσταση (παίγνιο) της θεωρίας παιγνίων (Game Theory), υποθέτουμε ότι οι εμπλεκόμενοι (οι παίκτες) είναι απόλυτα λογικοί και έχουν ως αποκλειστικό γνώμονα τη μεγιστοποίηση του κέρδους ή την ελαχιστοποίηση του κόστους (όπως σε αυτή την περίπτωση). Θα περίμενε ίσως κάποιος ότι δύο λογικοί άνθρωποι θα επέλεγαν το βέλτιστο δυνατό αποτέλεσμα που θα συνέφερε και τους δύο περισσότερο από αυτό που τελικά κατάφεραν, δηλαδή, να κρατήσουν και οι δύο τη σιωπή τους και να πάνε στη φυλακή με μια ποινή μόνο ενός έτους. Πώς κατέληξαν λοιπόν εδώ τα πράγματα; Η απάντηση βρίσκεται στην εμπιστοσύνη που δείχνει ο ένας στην απόφαση του άλλου. Με άλλα λόγια, με δεδομένη κάθε επιλογή του αντίπαλου παίκτη, το αποτέλεσμα του ανταγωνισμού επικρατεί έναντι του αποτελέσματος της συνεργασίας.
Το παραπάνω παράδειγμα καταδεικνύει ότι το «κοινό συμφέρον» δεν είναι πάντα η επιλογή απόλυτα λογικά σκεπτόμενων ατόμων και πολλές φορές απόλυτα λογικά επιλογές μπορούν να οδηγήσουν σε ζημία για όλους τους εμπλεκόμενους. Η κατάσταση αλλάζει αν το παιχνίδι επαναλαμβάνεται, οπότε κάθε παίκτης έχει τη δυνατότητα να «τιμωρήσει» μέσω της επιλογής του τον άλλο παίκτη για την προηγούμενη παρασπονδία του. Σε αυτή την περίπτωση, όταν οι επαναλήψεις του παιγνίου τείνουν στο άπειρο, η επιλογή της συνεργασίας (να κρατήσουν και οι δύο τη σιωπή τους) τείνει στο να επικρατήσει.
Αν όμως οι δύο ύποπτοι, μπορούσαν να επικοινωνήσουν, θα έβλεπαν ότι η καλύτερη λύση είναι η μη ομολογία. Αλλά όπως αναφέρθηκε και πιο πάνω δεν αποκλείεται η πιθανότητα της προδοσίας. Όμως αν οι δύο ύποπτοι έχουν ξαναέρθει αντιμέτωποι με το συγκεκριμένο πρόβλημα , έχουν συνεννοηθεί και δεν υπάρχει περίπτωση προδοσίας, τότε δε θα μιλήσουν. Αυτή η ισορροπία λέγεται “υπό-παιγνιακή τέλεια ισορροπία Nash”.
Η βέλτιστη στρατηγική για κάποιον παίχτη είναι να κρατήσει το στόμα του κλειστό στον πρώτο γύρο και στην συνέχεια να επαναλαμβάνει αυτό που έκανε ο άλλος παίχτης στον προηγούμενο γύρο. Η στρατηγική αυτή επικράτησε ως καλύτερη, σε round-robin διαγωνισμό επινοήθηκε από τον Ανατόλ Ράποπορτ, αποκαλείται TIT FOR TAT και αποδεικνύεται με γενετικούς αλγόριθμους.
Μεταφέροντας το παράδειγμα στην καθημερινή ζωή μπορούμε να βγάλουμε πολύ χρήσιμα συμπεράσματα για πράγματα που φαίνονται λογικό να γίνουν αλλά τελικά επιλέγεται κάτι διαφορετικό που οδηγεί σε χειρότερα αποτελέσματα.



ΠΗΓΗ: http://www.lecturesbureau.gr/1/the-prisoners-dilemma/

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου