囚徒困境的故事
两个歹徒,正在一位富豪的卧室作案,被赶来的警察逮住。富豪就死在旁边,可他们俩却不承认杀人的事实。他们辩解说,他们只是来偷点东西,他们进来时,富豪已经死了。警方把两个歹徒分开关在两个房间进行审讯,并给出了同样的政策:如果两个人都坦白了杀人罪行,那么都将被判无期徒刑;如果其中的一个坦白了,另一个抵赖,那么坦白者将被无罪释放,抵赖者将被判处死刑。如果两个都抵赖,因为证据不足,只能按偷窃罪判处他们有期徒刑一年。
(故事到这里呢,就暂时告一段落了。接下来,两个聪明的歹徒陷入了沉思。我们不妨站在其中一个歹徒的立场上,设想一下此时他会如何思考。他应该会想,我应该继续抵赖吗?如果我兄弟在那边坦白了,我不就死定了吗?那么,我应该坦白吗?如果我兄弟也坦白了,那我们俩就都得被判无期了。但如果他还是抵赖,我就能无罪释放了。如果是这样,哎,可怜的兄弟,我会在每年清明到你坟前烧黄纸的。
恩,我想如果是我,我大概会这么想吧!
我现在想问一下大家,如果换做是你,面对这样的情境,你会选择什么?你们为什么选择坦白而不是抵赖?假如你们都选择抵赖,只会被判处有期徒刑一年呢!)
为了更清楚直观地看到两个歹徒的选择和获刑之间的关系,我们来看这张图表:
让我们把两个歹徒分别称为张三和李四。
张三╲李四 | 坦白 | 抵赖 |
坦白 | 无期徒刑,无期徒刑 | 无罪释放,死刑 |
抵赖 | 死刑,无罪释放 | 有期一年,有期一年 |
这个表呢,叫作博弈矩阵。这个表中的两个人,也就是两个歹徒张三和李四,在博弈论中,被称为局中人。他们每一个人都有两个选择,分别是坦白和抵赖,这两个选择被称为局中人的策略。两个人各自的选择凑在一起,造就了两人各自的结局。比如,当李四选择坦白,张三选择抵赖的时候,李四会被无罪释放,而张三会被判死刑。两人的选择所得到的结果被称为局中人的收益。这样,传说中的博弈的三要素就构成了:局中人,局中人的策略以及局中人选择策略所获得的收益。
对张三来说,尽管他不知道李四作何选择,但他发现无论李四选择什么,他选择“坦白”总是最好的。显然,李四也会如此想,最终他们都被判无期徒刑。但是,倘若他们都选择“抵赖”,每人只被判有期徒刑一年。可是,都选择抵赖的结果不会出现。
故事讲完了,这个故事就是博弈论中最著名的模型:囚徒困境。
囚徒困境模型的几个现实例子
囚徒困境的例子在现实生活中很多。比如国家与国家之间的军备竞赛,显然,各国都不把大量的财富花在可能永远都用不上的军备上是最佳选择。可是,如果别的国家不把钱花在军备上,我们花,那么我们会在两国外交和贸易中占得优势,拥有国际影响力,在未来战争中赢得胜利。如果别国把钱花在军备上,我们也花,那么我们至少可以不吃亏。所以,不管别的国家把钱花不花在军备上,我们把大把大把的钱花在军备上都是优势选择。所以,我们会把钱花在军备上。显然,别国也会这样想。结果是各国都会把大把大把的钱花在军备上,而且还互相攀比,想要胜过对方,占得优势,以便给对方造成压力。这就造成了军备竞赛,你花一百亿,我花一百五十亿。你花一百五十亿啊,那么我花两百亿。一直拼到各国财力可以承担的最高限额。这样拼到底的结果是,各国都把大量本来可以用在经济社会发展和改善民生的财力用在武器和军队上了。
商家的价格战也是如此:假设我是一位经营家电的零售商。在我商铺的周围有很多的竞争对手。现在我面临降价与不降价的选择:如果对手不降价,那么我降价是有利可图的。如果对手降价,那么我也必须降价,否则我就会面临一件都卖不出去的局面。所以,降价就成为我的优势选择。这对于我的竞争对手来说也同样如此。这样拼到底的最终结果就是我和我的竞争对手都只有微薄的利润。
接下来我再举一个或许大家很有感触的例子:家长送礼。现在很多家庭都只有一个孩子,为了孩子的成绩和未来,很多家长都愿意给老师送点礼,以获得额外的关照。可是家长们没有想到,他们已经陷入了一场囚徒困境式的博弈,而在这场博弈中,除了老师之外,大家都是输家。家长的思维是这样的:我给老师送礼了,老师会对我的孩子额外关照。这种思维其实是理性的,并没有错。可是,别的孩子的家长也会这样想。当每个孩子的家长都送礼了,你的孩子还会受到额外关照吗?但当送礼成风之后,家长又会这样想,如果别的孩子的家长都送礼了,我不送,老师一定会特别轻视我的孩子。所以,不管别的家长送或者不送,我送,都是优势选择。然而每个家长的优势选择凑在一起并没有导致任何一个孩子获得老师的额外关照。
下面,让我们共同来关注一种社会现象:乞讨儿童。在我国,乞讨儿童各地基本都有,于是在11年春节前,首先是网络,然后是相关媒体和各地政府举行了的拯救乞讨儿童的大规模行动。这次行动被网民称为是一次网络绑架了主流媒体的事件。主流媒体陷入的囚徒困境是这样的:网络热议的这一乞讨儿童的问题,受到越来越多国人的关注。在这一背景下,如果我是一家知名媒体,我将面临两个选择:1、立即报导;2、推迟报导或不予报导。如果别的媒体没有立即报导,那么我立即采取行动,就能独家播发的有影响力的新闻,赚取更多的眼球和好评;如果别的媒体选择立即报导,那么我也应该立即报导,否则,我的媒体就会大大降低收视率或关注度;所以,在11年春节前,全国各大媒体一下子积极反应起来,很有效地关注了乞讨儿童现象。政府随后也积极介入,采取有力措施,救助了乞讨儿童。所以,有网民称这种现象为网络绑架了媒体。
记得多年前我看到过一则新闻,新闻里曝光的是北方某个村庄全村多年生产毒木耳的事。所谓毒木耳就是把从别的地方低价进过来的烂木耳通过硫磺熏制的办法,让烂木耳恢复好木耳的外观,从而充当好木耳流通到全国千家万户的餐桌。无疑,生产毒木耳的村民们都知道食用毒木耳会对人体健康会造成一定的危害。而且时间长了,这个产业迟早会倒掉。
我们不能说这个村的村民中就没有几个心地善良的人。我们也不能说这个村的村民都是目光短浅之辈,可是,无论心地善良的或心地恶毒的,目光长远的或目光短浅的,他们都数年如一日地生产销售着毒木耳。这是为何?
记得记者暗访该村的一位村民时问过一句话:你们这样生产毒木耳,难道不担心有一天被媒体报道出去,从此就再也没有批发商和消费者买你们这个地方产的木耳了吗?
这位村民的回答颇有道理:我们也知道我们村的这个产业迟早要倒掉,我们县的这个产业也会倒掉。就算我从现在开始生产优质木耳,别人还会生产毒木耳,所以这个产业还是要倒掉,我还不如趁倒掉之前再赚点钱呢!
摆着全村村民面前的博弈是这样的:别人生产毒木耳,我一人生产优质木耳,别人赚很多钱,我无钱可赚,我一人的善行就像滴入乌黑的海水中的一滴清水,不会改变什么,也不会引起关注,而木耳产业照样倒掉;别人生产优质木耳,我一人生产毒木耳,别人赚少量的钱,我赚很多的钱,我一人的恶行就像滴入蓝蓝的海水中的一滴污水,不会改变什么,也不会引起关注,而木耳产业照样不会倒。所以无论别人生产毒木耳与否,我生产毒木耳都是优势策略。
以上的这些例子,只是社会上囚徒困境例子的一部分。有人会说,以上这些例子说明了自私是人类的天性这一事实,俗话不是说,人不为己,天诛地灭吗?可是,自私的目的也是为了获得收益,改善自己的处境和生活。在明明知道自私的结果是大家都遭受损失,人们还是不由自主地选择自私,这又是为何呢?除了天性的解释之外,自私何尝不是大家的一种无奈的选择。如果别人都自私你不自私,那么你会受到损失;如果别人都不自私,你自私,你会获得利益。所以,无论别人自私与否,你自私总是优势选择。所以当今社会,大家都没有办法地自私起来了。真正的问题是,对于每一个个体来说的优势选择,集合到一起,往往会造成群体的灾难。而群体发生灾难,每一个个体是逃不了。很多时候,我们只能眼见社会资源被无奈地浪费消耗掉,而我们却只能助长这种浪费和消耗,眼巴巴地望着大家都无私所能结出的甜美果实,却只能品尝着大家都自私所酿造的苦果,因为很多时候,我们都是身陷困境的囚徒。
囚徒困境的分析
一、人们在囚徒困境中所表现出来的两类思维。
下面请想象,你刚跨入大学校门,第一次见到了你的室友。结果,你发现他是一个处处爱占别人便宜的人。那么,你会以什么样的策略来和这样一位室友相处呢?假如你大四了,遇到一个崇拜你的学弟,他是一个富有、豪爽,似乎还有点傻气的人。此时,你又会以何种策略和这位学弟相处呢?我想,如果我们符合经济学上理性人的假设,那么,在遇到抠门的室友时,你会变得精明起来,防止被他占到更多的便宜;而当你和傻气而富有的学弟相处时,你不会和他斗富,你仍旧是保持你的精明,只要再外加一点拙劣的表演,比如和他争着付钱,但每次你拿钱的手总是卡在你的口袋里,这样,你还能获得很多额外的利益。当你遇到抠门的室友时,你想的是最小化自己的损失;而当你遇到傻乎乎的学弟时,你想的是最大化自己的收益。
(刚才提到了经济学上的理性人假设,这一假设是由18世纪的英国经济学家亚当.斯密首先提出来的。那么这到底是什么个意思呢?举个例子,我和你是两个相邻店铺的店主,我的生意一般能赚到100元/天,而你的生意可以赚到1000元/天。如果我是理性人,那么我会努力地把我自己的生意做好,力争让我每天赚的钱超过100元。如果能从你这里抢点生意走,我也非常乐意,因为这会让我赚到更多的钱。但如果我不是一个理性人,那么我会怎么做呢?要不,我会更加不努力地做生意,把本来属于我的客户也推到你那里去。要不,我会暗中使坏,极力破坏你的生意,让你每天赚的钱比我还要少,比如让你每天只能赚到50元。只要达成这种目的我就非常开心,哪怕达成目的的代价是我每天所赚的钱也比原来少了,也没有关系。只要你赚得比我少,我就开心,哪怕自己也少了。所以,理性人是自私但不嫉妒的。那种不自私的人和充满嫉妒心的人,都不是理性人。)
我们在囚徒困境模型和其他所有的例子中,也能看到这两种思维方式的自然转换。在囚徒困境的故事中,当对方很自私地选择坦白时,我只有无奈地跟着他选择坦白,因为只有这样,我才能避免被判死刑,虽然最终只能获得无期徒刑的结局,但这总比死刑要好。我这时的选择就是在最小化自己的损失。但当对方很愚蠢地选择抵赖时,此时的我突然就由那个避免被判死刑的无奈者变成一个聪明机灵的人,我会很聪明地选择坦白。此时,我不会满足于一年有期徒刑了,尽管这比无期徒刑要好很多。此时,我想要的是无罪释放。如果我仅仅通过选择坦白就能获得无罪释放,那我又有什么理由不选择呢?此时,我就是在最大化自己的收益。日常生活中的我们也是这样的,当面临逆境的时候,我们总是试图最小化自己的损失,只想着如果逆境能稍微好转一点,我就是幸福的人,我就会知足,同时会对那些身处顺境中,却还不满足的人感到不可思议。我们经常会在此时发表我们的人生感悟:人活着要懂得珍惜,要学会知足;但当我们自己面临顺境的时候,我们也会最大化自己的收益,乘机大大地捞上一把,唯恐自己捞得不足,捞得不多。
这是在囚徒困境中,我们所发现的的人们的两类思维,那么,在囚徒困境中,为何难以实现双赢的结果呢?比如,国美和苏宁都不压价,这样对彼此都有好处,但这似乎不可能做到,为什么呢?
二、在囚徒困境中,为何难以实现双赢的结果?
1、是因为缺少博弈论知识吗?
刚才,我们的游戏参与者在不知道囚徒困境的知识的情况下,选择了坦白策略。当经过一番讲解之后,大家都了解了囚徒困境的模型,那么,当了解这一模型的人再次陷入囚徒困境中时,他们会选择彼此合作的策略吗?
现在假设我陷入了囚徒困境,同时我也了解在囚徒困境中,两人都选择抵赖的结局远远优于都选择坦白的结局,那么,我会选择抵赖策略吗?
不会。因为第一,我能控制我自己的选择,但我不能控制对方的选择,让对方也选择抵赖。我没有这个能力,不能像科幻电影中那样,通过我的脑电波影响别人的思维。第二,即使我能让对方选择抵赖,我还是会选择坦白。所以,我在了解博弈论知识的情况之下,我仍然会选择坦白。我会选择坦白,对方同样如此。
2、是因为缺乏沟通吗?
有人可能会说,在囚徒困境中,两个歹徒是被分别关在两个不同的房间进行审讯的,他们无法进行串通。如果给他们商量沟通的机会,那么就不会出现这种差劲的结局。情况真的如此吗?我们可以设想一下,如果经过沟通,你能说服对方选择“抵赖”,此时,你的最佳对策是什么?你仍旧会选择“坦白”。当然,你会这么想,对方也同样会这么想。所以,沟通并不能化解囚徒困境。
3、订立合同可以化解囚徒困境吗?
有人说订立合同,如果谁不选择“抵赖”,就违反合同,就要赔偿对方一定的金钱。这样不就化解了囚徒困境了吗?确实,这可以促使他们选择“抵赖”策略。但是,合同的赔付条款其实已经改变了博弈的收益,也就改变了博弈的性质。附加合同的囚徒困境已经不是囚徒困境了。而是变成了其他类型的博弈。但订立有约束力的合约确实是帮助人们走出困境的一种办法。
(这就是囚徒困境被附加了合同之后的博弈矩阵:当李四选择坦白的时候,张三选择坦白的收益仍旧是无期徒刑,而张三选择抵赖的收益由原来的死刑变成了死刑加100万遗产。我们假设张三和李四之间订立了谁不选择抵赖,谁就必须向对方支付100万元的合同。如果张三并非是那种一心寻死而想为老婆孩子赚100万遗产的人,那么,此时他会选择坦白。而当李四选择抵赖的时候,张三选择坦白的收益是释放加100万罚款,而选择抵赖的收益仍旧是一年有期徒刑。我们假设以张三这个人的本事,一年时间做苦工也只能赚1万元。如果是这样,显然此时他会选择抵赖。也就是说,对于张三来说,在这个新的博弈中,坦白和抵赖都是可选的,不过到底选择哪个,要看张三认为对方会选择哪个。显然,在这个博弈中,李四也要猜测着张三的选择来作自己的选择。
在这个订立了合同的新博弈中,原来绝不可能出现的双方都选择抵赖的策略组合变成了一个可以出现的策略组合,从而让局中人有可能摆脱困境,获得一年有期徒刑的结果。)
让我们再想想,除了订立合同,还有没其他办法可以改变博弈的收益,从而改变博弈性质,让局中人走出困境。
报复机制也是一种改变收益的手段。假如这两个歹徒同属于某一黑社会组织,如果某一歹徒选择抵赖,而另一个歹徒选择坦白,那么选择坦白的歹徒虽然会被警方无罪释放,但放出来后,按照黑社会的帮规,会被追杀并处死。考虑到这样的后果,那么这个人就不会在当初面临选择时选择坦白了。同理,对方也不会。这看似对他们不利的出狱后的威胁,反而帮助他们摆脱了困境,使他门得到只被判一年有期徒刑的结果,而不是都被判处无期徒刑。
(这就是在囚徒困境中加入报复机制后的博弈矩阵。我们假设他们俩所属的黑社会的帮规是:为义气而死的,帮里会帮助他照顾家人;被判兄弟求生的,帮里则会除掉他。这样,当李四选择坦白的时候,张三选择坦白的收益仍旧是无期徒刑,而张三选择抵赖的收益由原来的死刑变成了死刑加善待妻儿。我们假设张三是和我们一样怕死的人,善待不善待妻儿对于一个死人来说,没有多大意义。所以,此时他会选择坦白。而当李四选择抵赖的时候,张三选择坦白的收益是释放加杀死,而选择抵赖的收益仍旧是一年有期徒刑。如果是这样,显然此时他会选择抵赖。也就是说,对于张三来说,在这个新的博弈中,坦白和抵赖都是可选的,不过到底选择哪个,要看张三认为对方会选择哪个。因为这个博弈是对称的,所以,李四的选择过程和张三是完全一致的。
在这个加入了报复机制的新博弈中,局中人也有了走出困境的希望。)
是什么帮助了局中人呢?是包含有严厉的报复机制的帮规帮助他们摆脱了困境。他们在当初歃血为盟地时候,曾信誓旦旦地发誓不出卖兄弟。但到了出卖兄弟能保护自己的时候,那谁都靠不住。好在,歃血为盟的同时,他们还系统地学习了帮规以及过去违背帮规的某人曾得到严厉惩处的例子。这可以帮助后来的兄弟在遇到困境地时候,能舍生取义,但最终结果是大家都摆脱了困境,维系了一个帮派的生命力。
这也可以解释为何黑恶势力在书面协议不受保护的国家不断壮大,因为黑恶势力的规则在一定程度上起着维系合同、合约的作用,而不管这种维系是合法的还是非法的。在这些国家,黑恶势力成了法律强制力的补充,对社会起着一定的积极作用。对于一个社会来讲,坏法律永远强过没法律。
有些人不理解,为何坏的法律比没有法律好呢?经历过没有法律约束的社会状态的人们就知道,哪怕一个独裁的法律,都远远强过没有法律。法律的一个功能就是在社会全体成员之间制定一个强制性的游戏规则来约束人们之间的交往和活动。如果人们之间的交往活动突然失去了强制的游戏规则的约束,那么丛林法则就会变为人与人之间的规则,人的兽性就会显露出来。当然,除了法律之外,道德也能对人类活动起到一定的约束和规范的作用。但单独依靠道德力量的约束,是远远不够的,因为道德没有强制力。
有了法律,才能对合同、合约提供强制力保障,才可能改变博弈收益,把困境类的博弈改变为其他的博弈,使人们摆脱困境,使合作成为可能,从而提高整个社会的效率。
还有一种走出囚徒困境的方法,那就是无限次重复囚徒困境或者让局中人认为该博弈将重复无限次。人们为了长远利益,会放弃眼下的自私行为,转而携手合作。商家从欺骗消费者的行为中,当然可以获利,但如果可以预见这个消费者在未来有可能会无限次地购买,那么商家就不太可能会在当下的一次买卖行为中采取商业欺骗行为。这不是因为商家良心发现,而是因为这不符合他的长远利益和整体利益。也正因为如此,消费者才会放心地做出购买的行为。