Dilemme du prisonnier

Le dilemme du prisonnier est un exemple célèbre de la théorie des jeux caractérisant les situations où deux joueurs auraient intérêt à coopérer, mais où les incitations à trahir l'autre sont si fortes que la coopération n'est jamais choisie...


Catégories :

Théorie des jeux - Dilemme - Stratégie d'entreprise - Management

Recherche sur Google Images :


Source image : admiroutes.asso.fr
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Page(s) en rapport avec ce sujet :

  • ... Comme la version en un coup du Dilemme des Prisonniers n'est pas particulièrement intéressante (le choix le plus rationnel est de trahir), le jeu est ... (source : lifl)
  • Dans un jeu du dilemme du prisonnier répété, chaque joueur a l'opportunité de «punir» l'autre joueur pour sa précédente non-coopération.... (source : techno-science)
  • ... Le dilemme du prisonnier est un problème essentiel de la théorie des jeux, formalisé par le mathématicien américain Albert W. Tucker, ... (source : wikiberal)

Le dilemme du prisonnier est un exemple célèbre de la théorie des jeux caractérisant les situations où deux joueurs auraient intérêt à coopérer, mais où les incitations à trahir l'autre sont si fortes que la coopération n'est jamais choisie par un joueur rationnel quand le jeu n'est joué qu'une fois. Il illustre mais aussi les concepts d'équilibre de la théorie des jeux ne amènent pas obligatoirement à des allocations qui seraient néenmoins préférées par l'ensemble des joueurs.

Sous sa forme répétée, c'est-à-dire quand le jeu est joué plusieurs fois de suite, il sert d'illustration au folk theorem voulant que l'ensemble des issues du jeu peuvent être des équilibres d'un jeu répété un assez grand nombre de fois.

Du fait de la grande généralité de la situation décrite, le dilemme du prisonnier a été appliqué, sous une forme formelle ou plus discursive, dans la plupart de domaines, comme l'économie, la biologie, la politique internationale ou la psychologie.

Il fait partie des jeux fréquemment employés en économie expérimentale pour tester l'existence de comportements obéissant à la rationalité économique et la capacité des individus à identifier l'équilibre de Nash d'un jeu.

Principe

La forme habituelle de ce dilemme est celle de deux prisonniers (complices d'un délit) retenus dans des cellules scindées et qui ne peuvent communiquer.

Ce problème modélise bien les questions de politique tarifaire : le concurrent qui baisse ses prix gagne des parts de marché et peut ainsi augmenter ses ventes et accroître peut-être son bénéfice… mais si son concurrent principal en fait tout autant, les deux peuvent y perdre.

L'équilibre de Nash pour ce type de jeu ne conduit pas à un optimum de Pareto (c'est-à-dire un état dans lequel on ne peut pas perfectionner le bien-être d'un individu sans détériorer celui d'un autre). À l'équilibre, chacun des prisonniers choisit de faire défaut même s'ils gagnaient à coopérer. Malheureusement pour les prisonniers, chacun est incité à tricher après avoir fait la promesse de coopérer. C'est le cœur du dilemme.

Ceci est cependant sensiblement différent d'une situation de marché libre où les deux agents économiques «prisonniers» peuvent coopérer pour atteindre un optimum de Pareto (parce que l'optimum vu par les producteurs ne va pas toujours dans l'intérêt du consommateur, les lois antitrust de l'ensemble des pays interdisent, officiellement du moins, les ententes entre producteurs concurrents).

Dans un jeu du dilemme du prisonnier répété, chaque joueur a l'opportunité de «punir» l'autre joueur pour sa précédente non-coopération. La coopération peut par conséquent survenir dans cette configuration. L'incitation à tricher est inférieure à la menace de punition, ce qui introduit la possibilité de coopérer.

Le dilemme du prisonnier est utilisé par les économistes, les mathématiciens, les psychologues, les biologistes et les spécialistes de science politique. Le paradigme correspondant est aussi mentionné en philosophie et dans le domaine des sciences cognitives.

Dilemme du prisonnier classique

Formulation

La première expérience du dilemme du prisonnier a été réalisée en 1950 par Melvin Dresher et Merill Flood, qui travaillaient alors pour la RAND Corporation. Par la suite, Albert W. Tucker la présenta sous la forme d'une histoire :

Deux suspects sont arrêtés par la police. Mais les agents n'ont pas suffisament de preuves pour les inculper, par conséquent ils les interrogent séparément en leur faisant la même offre. «Si tu dénonces ton complice et qu'il ne te dénonce pas, tu seras remis en liberté et l'autre écopera de 10 ans de prison. Si tu le dénonces et lui aussi, vous écoperez l'ensemble des deux de 5 ans de prison. Si personne ne se dénonce, vous aurez tous deux 6 mois de prison. »

On résume fréquemment les utilités de chacun dans ce tableau :

1 \ 2 Se tait Dénonce
Se tait (-1/2;-1/2) (-10;0)
Dénonce (0;-10) (-5;-5)

Chacun des prisonniers réfléchit de son côté en considérant les deux cas envisageables de réaction de son complice.

«Quel que soit son choix, j'ai par conséquent intérêt à le dénoncer. »

Si chacun des complices fait ce raisonnement, les deux vont certainement choisir de se dénoncer mutuellement, ce choix étant le plus empreint de rationalité. Conformément à l'énoncé, ils écoperont par conséquent de 5 ans de prison chacun. Or, s'ils étaient tous deux restés silencieux, ils n'auraient écopé que de 6 mois chacun. Ainsi, quand chacun poursuit son intérêt individuel, le résultat obtenu n'est pas optimal au sens de Vilfredo Pareto.

Ce jeu est à somme non nulle, c'est-à-dire que la somme des gains pour les participants n'est pas forcément la même : il soulève une question de coopération.

Pour qu'il y ait dilemme, la tentation T (je le dénonce, il se tait) doit payer plus que la coopération R (on se tait l'ensemble des deux), qui doit rapporter plus que la punition pour égoïsme P (je le dénonce, il me dénonce), qui doit être plus valorisante que la duperie S (je me tais, il me dénonce). Ceci est formalisé par :

T > R > P > S (ici : 0 > -0, 5 > -5 > -10)

Pour qu'une collaboration puisse naître dans un dilemme répété (ou itératif) (voir plus bas), 2 coups de coopération R doit être plus valorisant que l'alternat Tentation / Dupe. Ce qui fait la condition 2R > T+S [ici : 2*-0, 5 > 0 + (-10) ].

Exemples de situations réelles

Le dilemme du prisonnier apporte un cadre général pour penser les situations où deux ou plusieurs acteurs ont un intérêt à coopérer, mais un intérêt toujours plus fort à ne pas le faire si l'autre le fait, et aucun moyen de contraindre l'autre. Certains domaines comme l'écologie ou l'économie utilisent totalement la nature mathématique du problème en donnant un sens concret aux paramètres, par exemple celui de paiements. D'autres ne retiennent que le cadre conceptuel pour catégoriser des situations où les paiements sont peu quantifiables.

Les exemples suivants permettront de mieux cerner la diversité des applications envisageables et la grande généralité du cadre du dilemme du prisonnier.

Économie

Un exemple canonique est le cas de deux entreprises qui n'ont pas le droit de s'entendre sur une politique commerciale commune (ce que le droit antitrust des États-Unis et le droit français et européen interdisent) et qui se demandent s'il leur faut procéder ou non à une baisse de prix pour conquérir des parts de marché aux dépens de leur concurrent. Si tous deux baissent leur prix, ils seront le plus souvent tous deux perdants comparé au statu quo[1]. On peut aussi évoquer à ce propos les biens collectifs (dont n'importe qui veut bénéficier, tout en voulant les faire financer par les autres), le cas des quotas textiles conçus pour éviter une chute des prix mais que chacun cherche à contourner, ou les campagnes publicitaires coûteuses pour le même bien qui se neutralisent[2].

Le dilemme du prisonnier est fréquemment donné comme illustration du fait que la libre concurrence ne conduit pas nécessairement au résultat optimal au sens de Pareto, ni même maximisant la somme des gains de l'ensemble des joueurs.

Écologie

La théorie des jeux, et le dilemme du prisonnier surtout, sont souvent utilisés en écologie pour modéliser l'évolution des comportements entre individus d'une même espèce vers des stratégies évolutivement stables. La naissance et le maintien des comportements de coopération par exemple, se prêtent à ce type d'analyse. Richard Dawkins en a fait l'un des points centraux de sa théorie du gène égoïste, puisque l'optimisation de la survie peut passer par un comportement apparemment altruiste.

Politique internationale

Soit deux pays A et B. Les pays A et B peuvent choisir de maintenir ou non une armée. Si tous deux ont une armée (de force environ équivalente), la guerre est moins "tentante", car particulièrement coûteuse (situation de la guerre froide). Les dépenses militaires sont alors une perte nette pour les deux pays. Si un seul a une armée, il peut bien entendu conquérir sans coup férir l'autre, ce qui est pire. Enfin, si aucun n'a d'armée, la paix règne et les pays n'ont pas de dépenses militaires. La situation de coopération permettant à chacun de ne pas avoir d'armée est bien entendu préférable à la situation où les deux pays entretiennent une armée, mais elle est instable : chacun des deux pays a une forte incitation à se doter unilatéralement d'une armée pour envahir l'autre[3].

Sociologie et anthropologie

Les sciences humaines ont aussi adopté le cadre conceptuel du dilemme du prisonnier pour parler de situations bloquées dans un état défavorable par la difficulté à coordonner les actions des différents agents ou à vérifier (et peut-être punir) les déviances égoïstes. Ce cadre a ainsi été utilisé par les sociologues pour expliquer la lenteur de l'adoption des semences à haut rendement dans le monde agricole français dans les années 1960. La totalité des agriculteurs auraient eu intérêt à adopter ces variétés, mais la pression sociale s'exerçant sur ceux qui tentaient l'expérience dissuadait de nombreux agriculteurs.

Psychologie

Le dilemme du prisonnier se rencontre souvent dans les relations de couple. Prenons ainsi l'exemple d'un couple marié en état de conflit, chacun des partenaires ayant eu une aventure extra-conjugale à l'insu de l'autre. Chacun des deux voudrait pouvoir avouer sa faute et se réconcilier (coopération). Cependant, chacun des deux craint le mépris de l'autre s'il est l'unique à avoir fauté, et préfère l'état de conflit.

Cas de résolution du dilemme

Dans un très grand nombre de situations réelles, les espèces vivantes qui en sont capables mettent au point des processus de socialisation servant à résoudre le dilemme du prisonnier, c'est-à-dire de rendre stable la stratégie coopérative, qui est optimale. Il y a deux façons d'obtenir ce résultat : La première possibilité est la mise en place d'une mémorisation des protagonistes et de leurs comportements, pour se situer dans le cas du dilemme répété (qui n'est plus un dilemme). La seconde solution est d'établir un code de conduite au sein de la société, associé à des sanctions pour les contrevenants. De cette façon, la trahison, si elle est plus lourdement sanctionnée que ce qu'elle rapporte, devient moins avantageuse que la coopération. L'espèce humaine a développé une faculté particulièrement importante à mettre en œuvre ces deux dispositifs de résolution du dilemme du prisonnier, par ses capacités de mémoire et de sympathie, et par un dispositif judiciaire et répressif particulièrement très élaboré. Ainsi, la démocratie forme l'un des moyens les plus avancés qu'a mis au point l'espèce humaine pour résoudre le dilemme du prisonnier à grande échelle. [réf.  nécessaire]

Dans la vie courante le paradoxe est le plus souvent levé en utilisant la notion de réputation qui sert à prendre une décision en évaluant a priori les risques de coopérer avec quelqu'un. Chacun a intérêt à entretenir cette bonne réputation pour que les autres acceptent de coopérer avec lui.

Limites des applications

Les protagonistes du dilemme dans sa forme classique n'ont le choix qu'entre deux attitudes : coopérer ou ne pas coopérer. Cette dichotomie est manifestement particulièrement artificielle. En réalité, l'ensemble des degrés existent entre ces deux termes, rendant l'application de ce dilemme bien plus délicate. Cependant cette forme a un but pédagogique et la structure éclaire des versions plus complexes ou plus réalistes (la concurrence à la Cournot par exemple).

Il s'agit d'un modèle à deux protagonistes restant isolés jusqu'à l'annonce des résultats de la transaction. Dans la vie réelle, trois individus ou plus peuvent interagir ce qui complexifie notablement le choix entre la coopération et la non-coopération. Cependant les phénomènes de passager clandestin (le free-riding des anglophones) dont l'existence ne fait pas de doute montrent eux aussi la force de l'exemple.

Le dilemme répété

Dans son ouvrage The Evolution of Cooperation (L'évolution de la coopération, 1984), Robert Axelrod étudie une extension classique de ce dilemme : le jeu se répète, et les participants gardent en mémoire les précédentes rencontres. Cette version du jeu est aussi nommée dilemme itératif du prisonnier. Il donne une autre illustration à partir d'une situation équivalente : deux personnes échangent des sacs, censés contenir respectivement de l'argent et un bien. Chacun a un intérêt immédiat à passer un sac vide, mais il est plus avantageux pour les deux que la transaction ait lieu.

Lorsque on répète ce jeu durablement dans une population, les joueurs qui adoptent une stratégie intéressée y perdent au long terme, tandis que les joueurs apparemment plus désintéressés voient leur «altruisme» finalement récompensé : le dilemme du prisonnier n'est par conséquent plus à proprement parler un dilemme. Axelrod y a vu une explication de la naissance d'un comportement altruiste dans un contexte d'évolution darwinienne par sélection naturelle.

La meilleure stratégie dans un contexte déterministe «œil pour œil» («Tit for Tat», une autre traduction courante étant «donnant-donnant») a été conçue par Anatol Rapoport pour un concours informatisé. Son exceptionnelle simplicité a eu raison des autres propositions. Elle consiste à coopérer au premier coup, puis à reproduire à chaque fois le comportement de l'adversaire du coup précédent. Une variante, «œil pour œil avec pardon», s'est révélée légèrement plus efficace : en cas de défection de l'adversaire, on coopère quelquefois (de 1 à 5 %) au coup suivant. Cela permet d'éviter de rester bloqué dans un cycle négatif. Le meilleur réglage dépend des autres participants. Surtout, «œil pour œil avec pardon» est plus efficace si la communication est brouillée, c'est-à-dire s'il arrive qu'un autre participant interprète à tort un coup.

Pour le dilemme du prisonnier, il n'existe pas de stratégie toujours optimale. Si, par exemple, toute la population fait toujours défaut sauf un individu qui respecte «œil pour œil», alors ce dernier a un désavantage au premier coup. Face à une unanimité de défaut, la meilleure stratégie est de toujours trahir aussi. S'il y a une part de traîtres systématiques et «d'œil pour œil», la stratégie optimale dépend de la proportion et de la durée du jeu. En faisant disparaître les individus qui n'obtiennent pas de bons totaux et en faisant se dupliquer ceux qui mènent, on peut étudier des dynamiques intéressantes. La répartition finale dépend de la population d'origine.

Si le nombre N d'itérations est fini et connu, l'équilibre de Nash est de toujours faire défaut, comme pour N=1. Cela se montre simplement par récurrence :

Pour que la coopération reste intéressante, le futur doit par conséquent rester incertain pour l'ensemble des participants -- une solution envisageable est de tirer un N aléatoire.

La situation est aussi surprenante si on joue indéfiniment au dilemme du prisonnier, le score étant la moyenne des scores obtenus (calculée de manière appropriée).

Le dilemme du prisonnier est la base de certaines théories de la coopération humaine et de la confiance. Si on assimile les situations de transactions qui réclament de la confiance à un dilemme du prisonnier, un comportement de coopération dans une population peut être modélisé comme un jeu entre plusieurs joueurs, répété - d'où la fascination de nombreux universitaires depuis longtemps : en 1975, Grofman et Pool estimaient déjà à plus de 2000 les articles scientifiques sur le sujet.

Ces travaux fournissent une base modélisable, quantitative, pour l'étude scientifique des lois morales.

Axelrod donne dans son ouvrage Comment réussir dans un monde égoïste un exemple de stratégie œil pour œil dans le cadre du dilemme du prisonnier itératif : durant la guerre des tranchées, les combattants des deux camps, et ce, contre l'avis du commandement, appliquaient le principe vivre et laisser-vivre. Les protagonistes ne déclenchaient ainsi jamais en premier les hostilités mais répliquaient fortement à toute agression.

Variantes

Il existe des variantes de ce jeu qui, en modifiant un peu les gains, aboutissent à des conclusions particulièrement différentes :

Le jeu de la Poule-mouillée

La poule-mouillée est un autre jeu à somme non-nulle, où la coopération est récompensée. Ce jeu est identique au dilemme du prisonnier en ce qu'il est avantageux de trahir quand l'autre coopère. Mais il en change en ce qu'il est avantageux de coopérer si l'autre trahit : la défection double est la pire des solutions -- par conséquent un équilibre instable -- tandis que dans le dilemme du prisonnier il est toujours avantageux de trahir, ce qui rendait l'équilibre de double défection stable. La double coopération est dans les deux jeux un équilibre instable.

Une matrice des gains est comparable à :

1 \ 2 Coopère Trahit
Coopère (+5;+5) (+1;+10)
Trahit (+10;+1) (-20;-20)

-


L'appellation «Poule-mouillée» est tirée du «jeu» automobile :

Il est avantageux d'apparaître comme un «dur» qui ne renoncera pas et d'intimider l'adversaire… tant qu'on parvient à rester en jeu.

On trouve des exemples concrets dans énormément de situations quotidiennes : l'entretien de la maison commune à un couple, par exemple, ou l'entretien d'un dispositif d'irrigation entre deux fermiers. Chacun peut l'entretenir seul, mais ils en profitent l'ensemble des deux tout autant. Si l'un d'entre eux n'assure pas sa part d'entretien, l'autre a toujours intérêt à le faire à sa place, pour continuer à arroser. Donc, si l'un parvient à établir une réputation d'indélicat dominant - c'est-à-dire si l'habitude est prise que ce soit toujours l'autre qui s'occupe de l'entretien - il sera susceptible de maintenir cette situation.

Cet exemple peut aussi s'appliquer en politique internationale, dans la situation où deux États entretiennent un différend qui est susceptible de déboucher sur une guerre. Passer pour une poule mouillée est une garantie d'être ultérieurement confronté à nouveau à la même situation (comme la France et la Grande-Bretagne le constatèrent avant 1939), mais maintenir une réputation suppose une dépense (entretien militaire) et des risques (guerre toujours envisageable).

Ami ou ennemi

«Ami ou ennemi» («Friend or Fœ») est un jeu aujourd'hui diffusé sur une chaîne câblée aux États-Unis (Game Show Network). C'est un exemple de dilemme du prisonnier testé sur des particuliers dans un cadre artificiel. Sur le plateau, trois paires de participants s'affrontent. Lorsque une paire est éliminée, ses deux membres se répartissent leurs gains selon un dilemme du prisonnier. Si les deux coopèrent («Friend»), ils partagent équitablement la somme accumulée au cours du jeu. Si aucun ne coopère («Fœ»), ils se quittent sans rien. S'il l'un coopère et que l'autre fait défaut, le premier part les mains vides et l'autre remporte le tout. La situation est légèrement différente de la matrice canonique plus haut : le gain est le même pour qui voit sa confiance trahie ou qui emporte l'autre dans sa perte. Si un joueur sait que l'autre le trahira, sa réponse lui est indifférente. L'équilibre non coopératif est par conséquent neutre, tandis qu'il est stable dans le cas habituel. La matrice à considérer est donc :

Joueur 1 ; Joueur 2 Coopère Trahit
Coopère (50%;50%) (0%;100%)
Trahit (100%;0%) (0%;0%)

Ce jeu représente un cas réel du dilemme du prisonnier. Comme on ne peut participer qu'une fois au jeu, aucune considération concernant les jeux répétés n'est applicable directement[4] et la stratégie «Œil pour Œil» n'intervient pas… quoiqu'on ne sache pas ce qui se passe après l'émission.

Voir aussi

Bibliographie

Notes et références

  1. (en) James D. Miller, Game Theory at work : How to Use Game Theory to Outthink and Outmaneuver your Competition, Mcgraw-Hill, New York, 13 mars 2003, 288 p. (ISBN 978-0071400206) , chap.  7 («Prisonner's dilemna»), p.  118-120 
  2. Bernard Guerrien, La théorie des jeux, p22, économica, 2002, ISBN : 2-7178-4408-2
  3. (en) James D. Miller, Game Theory at work : How to Use Game Theory to Outthink and Outmaneuver your Competition, Mcgraw-Hill, New York, 13 mars 2003, 288 p. (ISBN 978-0071400206) , chap.  7 («Prisonner's dilemna»), p.  131-132 
  4. On ne peut par conséquent pas utiliser une approche par probabilités dans leur interprétation fréquentiste ; on continue cependant à pouvoir en utiliser une approche bayésienne pour modeler l'incertain

Liens externes

Recherche sur Amazone (livres) :



Principaux mots-clés de cette page : dilemme - prisonnier - jeu - coopération - situations - chacun - œil - joueurs - coopérer - dénonce - intérêt - coups - équilibre - ensemble - comportements - toujours - conséquent - coopère - game - stratégies - jeux - état - théorie - forme - répété - défaut - pays - cadre - armée - theory -


Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Dilemme_du_prisonnier.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 26/10/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu