系列专题:《思维方式大变革:三天读懂博弈学》
我们用收益矩阵分析囚徒困境的情况(如下表): 埃尔 供认 不供认

鲍伯 供认 10年,10年 0年,20年 不供认 20年,0年 1年,1年 收益矩阵可以这样解释:囚犯的战略是供认或不供认,每个囚犯选择其中一种战略。竖列代表埃尔的战略,横行代表鲍勃的战略。矩阵中的每组数字是两个囚犯选择不同战略得到的相应结果,逗号左边的数字为鲍勃的收益,右边数字为埃尔的收益。以第一列为例,若两囚犯都认罪,都被判入狱10年;若埃尔认罪,鲍勃不认罪,鲍勃入狱20年,埃尔获释。 那么,到底应该如何解决这一博弈问题呢?如果二人都想入狱时间最短,什么样的战略才是理性的呢?埃尔可能作如下思考:"有两种可能性会发生:鲍勃认罪或保持沉默。假定鲍勃认罪,则我不认罪将入狱20年,认罪将入狱10年,所以该情况下最佳的选择是认罪。相反,假定鲍勃不认罪,则我不认罪将入狱1年,认罪将获得自由,认罪还是最佳选择。总之,我应该认罪。" ⊙托马斯·谢林的博弈收益矩阵 托马斯·谢林教授对博弈论的重大贡献之一就是首先用矩阵形式的表格表示两个参与者的博弈所得。谢林教授曾经说过:"假如真有人问我有没有对博弈论做出一点贡献,我会回答有的。若问是什么,我会说我发明了一个矩阵反映双方得失的做法……我不认为这个发明可以申请专利,所以我免费赠送,不过除了我的学生,几乎没有人愿意利用这个便利。现在,我也供给各位免费使用我发明的矩阵。" 上文中我们所用的用来表示囚徒困境的矩阵,就是谢林教授"免费"提供给我们的。 同样,鲍勃也将按照相同的思维确定自己的行为选择,其结果是两人都认罪,被判入狱10年。然而,如果二人非理性行事,保持沉默,每人只会入狱1年。 由此可见,对于鲍伯来说,无论埃尔采取什么策略,他坦白总是对自己有利的,两相比较,坦白是他的优势策略;对于埃尔同样如此。因此,在这个博弈中,坦白是双方的优势策略,那么,抵赖就是劣势策略。 实际上,囚徒困境正是个人理性冲突与集体理性冲突的经典情形。正因为在囚徒困境中,每个人都根据自己的利益做出决策,但最后的结果却是谁也捞不到好处。这种情形在生活中也会遇到,比如排队购物时,如果大家都在排队而只有一个人挤上前去插队,他将得到好处;可是如果大家都蜂拥而上,将会出现混乱无序的局面,此时你只能跟着大家一起挤才有可能尽快买到你想要的东西,否则你将成为最后一个--也是最吃亏的一个。