演化博弈论 自发秩序演化的四类博弈问题(2)



协调博弈型的问题

协调博弈,是指在博弈所定义的收益空间中,任何均衡点都符合以下条件:即(1)在给定其他参与人行为策略的条件下,没有人有激励改变其行为策略;且(2)没有参与者希望其他参与者会愿意改变其行为。[1]协调博弈的最为经典的弈局出现在“交通博弈”中。表7-1的收益矩阵给出了一个交通博弈的收益分布。观察该矩阵可以发现:该矩阵有三个纳什均衡,即(靠左,靠左)、(靠右,靠右)以及一个靠左和靠右各占50%概率的混合动机策略均衡。因此,只要给定对方的选择,参与者就没有激励偏离均衡策略;或者即使不给定对方的策略,参与者也只能通过协调来实现均衡。

 

 表7-1:交通博弈

                         夏 娃

                                 靠左           靠右

            

                    靠左

亚 当

                    靠右

 

显然,在这种博弈中,每个参与者的策略问题是:他希望和他的对手就策略选择进行“协调”,因为不管是否给定对手的策略,协调的结果总是最好的。森在1967年的论文[2]中,将一个协调博弈称为“信心博弈”。他指出,协调博弈与囚徒困境博弈刚好相反,每个参与者选择策略A或B,仅仅需要确信对方也会相应地选择A或B。他们不像合作博弈那样需要一个有约束力的契约之类的东西,而是更需要在彼此之间确立一种相互信任的信心。

如果我们考虑将上述关于交通的协调博弈扩展为,(1)在固定参与者之间进行的重复博弈,或(2)在特定的群体系统内部非固定参与者之间进行的超博弈,那么就不难想象,与其每次出现时都去尝试解决这个博弈,远不如在行为人之间建立起某种行为或惯例的稳定的均衡模式,进而使得参与人在此后遇到类似问题时都可以加以遵循,而不需要反复支付信息成本和交易成本。但协调博弈的一个问题在于,均衡解具有不确定性和多样性,因此哪种均衡的规则将被选择具有随机特征。因此,在习俗层面上讲,协调博弈的均衡规则是多样的。但不管怎样,只要相应的一种行为模式被广泛接受,并被自觉遵从,就会形成习俗或自发秩序,并且有助于包括参与者在内的所有群体成员,避免类似弈局中无效率的非均衡收益。

7.2.2囚徒困境类型的问题

图克(Tucker)在1950年提出的“囚徒困境博弈”是指,在弈局中对于任何一个非合作均衡,都至少有一个与某个非均衡的纯策略n维数组相对应的得益向量,在帕累托原则上优于它[3]。囚徒困境是博弈论中最为经典的非合作博弈实例。它是指在一次性博弈中,参与者的收益不仅取决于自己的策略选择,也取决于对方的策略选择,属于策略和利益依存的典型博弈问题。在该类博弈中,参与者在决策时即使无法知道对方的策略选择,也不能忽视其策略影响,他必须考虑对方的两种可能选择对自己的不同影响,进而据此做出自己的最优决策。表7-2给出了一次性囚徒困境博弈的收益分布。

 

表7-2囚徒困境

                          夏 娃

                              坦白           抵赖

                 坦白

          亚 当    

抵赖

 

观察表7-2的收益矩阵,我们发现,该博弈的帕累托最优解应当是(抵赖,抵赖)。但实际的结果证明,在一次性囚徒博弈中,真正的纳什均衡却是(坦白,坦白)。由于不允许串通,因此,参与者出于私利都追求自己的最大利益而不会顾及同伙的利益。结果导致双方都不敢相信对方具有合作精神,因此只能选择对他们都不理想的策略。正是由于在该类型的博弈中这个结果难以摆脱,因此被称为“囚徒困境”。一次性囚徒困境博弈,揭示了个体理性与群体理性之间的矛盾:即从个体利益出发往往不能实现群体的最大利益,而从个体利益出发的行为结果不仅不利于群体利益,也并不会有利于个体利益,相反可能导致更差的结果。囚徒困境博弈的理论意义在于,它在群体和社会系统内部互动与合作行为中具有极大的普遍性。但囚徒困境博弈的非合作解,为合作行为及其效率提出了挑战。

事实上,囚徒困境的难题主要是由于博弈的非重复特征导致的。如果一个群体系统内部的成员反复地面临囚徒困境博弈,那么有效率的做法就是,他们应当从中演化出某种行为的规则,以避免反复出现的非合作、非效率的策略的使用。如果博弈是重复进行的,而且参与人都认识到了这一点,那么双方就会认识到反复使用背叛策略对自己是不利的。而随着情况的重复出现,我们就可以期待一个显示合作倾向的偏好的规范得以发展和确立。在这一规范之上,合作的倾向将通过习俗和惯例得以建立,进而解开囚徒困境的难题。但是,需要指出的是,由于该类问题是囚徒困境类型的,在每次重复博弈时,参与人都存在偏离规则的激励,因此规则必须对偏离的后果给予清晰的规定,而这种规定必须是惩罚式的。一般而言,针对囚徒困境的规则应当硬化为某种惯例,而不应停留在习俗的层面,因为惯例能在更高的层次上规范背叛行为,并通过惩罚来自我维持。

7.2.3保持不平等的问题

乌尔曼·玛格丽特所考虑的第三种产生制度规范的博弈问题,也是肖特所谓的“维系不平等的制度”[4]。实际上,该类博弈并不是独立的博弈类型,相反它表现为协调博弈的一个子类或亚种。从制度和规则创生的角度看,这种区分是有意义的。该类制度得以产生,是为了在各种互动行为之间维持某种特定的不平等格局。该情形下产生的制度类似于子嗣继承法、产权配置、等级制度等。它可以建立一种规范,进而使得特定的不平等格局得以维持。一般而言,在该类问题中,一个均衡得益的向量一旦被指定为原初状态并被赋予正当性和特权,那么类似的情形都将以此为依据。因此,这类问题在均衡解的选择上有别与协调博弈和囚徒困境博弈的方案。为了更完整的理解该类博弈导致的规则制度问题,我们可以考虑表7-3的性别博弈的收益矩阵。

 

表7-3:性别博弈

                             夏 娃

                                C1           C2

            

                 R1

亚 当

                 R2

 

在一次性博弈中,亚当和夏娃分别在C1、C2、和 R1、R2两个策略集合中选择,收益矩阵显示出该协调博弈有两个策略均衡(R1,C1)和(R2,C2),它们分别对不同的参与者有利。但出于维系特定不平等格局的考虑,对亚当有利的策略均衡(R1,C1)被选定,并被界定为合理状态。

如果我们考虑将该博弈扩展为一个重复进行的超博弈,那么参与者将被迫创立某种他们在该类博弈中的行为规范或习俗,该习俗将规定群体内部成员在同类型的重复博弈中,他们将遵循哪一个策略均衡。在因此,该类问题不再是哪个均衡将作为群体或社会系统的规范和惯例,而是历史传统决定性地规定了不平等分配的惯例是否被遵循,或者不利的那一方是否会尝试对该规范均衡实施偏离。由于特定规范造成的参与人收益格局的不平等,因此不利的一方总是存在偏离规范均衡的激励。在重复进行的超博弈中,如果对亚当有利的策略均衡(R1,C1)作为规范被执行的期限较短的话,那么夏娃将尝试将被选定的均衡策略从(R1,C1)转向(R2,C2)就是有可能的。因为,只要夏娃具有认知进化的能力,并且所在群体对她没有形成足够的压制,那么她就能发现该博弈所具有的对称性特征。因为,没有足够理由说明对亚当有利的策略均衡(R1,C1)就是更加公平合理的。这样,作为博弈结果,均衡被改变就处于夏娃的预期之中。显然,此时夏娃实施偏离均衡的动机是,她意识到,如果她能够通过不断重复的协调博弈使得亚当只能接受不利的策略均衡收益(R2,C2),那么她就会确定自己采取C2策略的信念,并进而打破先前的配置规范。显然,在一种试图维持不平等格局的规范当中,其习俗或惯例必须被良好地定义,以便将夏娃试图打破选定均衡(R1,C1)的激励的可能性排除在外。因为,只有在规范定义中明确支持(R1,C1)的策略均衡,而对(R2,C2)的策略组合给予惩罚,才足以维持该规范的效力。一旦这种规范得到良好的定义,而相应的习俗和惯例得以确立并通过惩罚得以维系,那么它就足以使特定的不平等的收益格局(R1,C1)长久存在,并具有足够的稳定性,除非支持(R1,C1)策略均衡的观念被改变。

显然,在维持不平等格局的协调博弈中,是人为的因素造成了保持不平等规范的确立和维系,这也是它与重复的纯协调博弈和囚徒困境问题产生的规范之间的差别。

7.2.4合作博弈类型的问题

在上述非合作博弈导致的规范和制度之外,肖特还分析了一种合作博弈导致的制度规范的情形。非合作博弈型构制度的特征在于,博弈的参与人不能就策略选择进行交流,却可以促使规则与制度有机孽生地出现。换言之,该类自发秩序是通过互动的人类行为而非人类理性的设计;同时它们只是个人基于有限理性行为的结果而不是集体理性设计的产物。

肖特指出,在非合作博弈问题之外,还有一些社会制度是有机孽生地产生于n人合作博弈所对应的社会状况中的,但它们并非人类集体理性设计的产物,而是所考察的均衡解的特征。在该类情形中,制度是通过个人和集体的最大化行为而创生的,没有人将社会制度的创生直接地作为其行动的目的。[5]肖特借用了诺齐克在《无政府、国家与乌托邦》一书中的“自然状态盗窃博弈”模型,并指出诺齐克在该模型中分析的“最小国家”的产生,是第四类制度规范产生的最好证明。[6]他指出,虽然创生国家的行为人能够相互说话并面对面地谈判(符合合作博弈的条件),但从这些谈判中产生的制度安排却可能是完全未经计划的,而且完全符合门格尔所称的“自然创生的社会制度”。[7]在该类制度现象中,制度或规则的有机孽生,看上去更像是在一个合作博弈环境下由一只看不见的手所调节的。因此,该类制度可能只是被隐性地同意或遵守的,而不需要是一个具有约束力的显性契约的合作议价过程的结果。在诺齐克“自然状态盗窃博弈”的国家模型中,国家的产生仅仅只是一个合作博弈的均衡解(核),并且是从个人最大化自己利益的行为意图中产生的。尽管所有参与人都可以交流沟通并讨价还价,但它是一个没有人为计划的结果,也是个人和群体都不肯放弃的,其存在被一致地接受。

根据诺齐克的理论[8],当一个环境空间内部的行为人为了裁决它们互动行为的争端,并相互保护以免外部人对自己实施侵犯时,他们所形成的保护性联盟就是国家的最初起源。如果这个保护性联盟的形成中存在任何对集体的规模收益递增特征,该联盟将在更大规模上得以形成,而所有人将归属并接受它的保护和裁量权。这就是诺齐克意义上的“最小国家”。但从其发生过程来看,行为人并不需要抱有创生一个国家的明显动机和目的而相互联合,他们只是作为分散的个人出于自我保护的动机,并经由一个互动博弈的均衡结果出现并被无意识的创生出来的。

诺齐克假设,在一个N人的自然状态下,他们每个人都有M单位的初始资源禀赋,个人在能力和效用方面都无差异,且个人的效用是线性的。由于原初状态不存在任何既有的制度,因此资源是没有产权的。于是每个都必须决定是只消费自己的M部分,还是抢夺另外一个人的资源以获取2M的资源。诺齐克假设每个人只有抢一个人的时间,其抢劫成本为c,而防止被抢的反击成本为d。然后博弈在自然状态下进行:每个行为人i都必须在i=0; 1; …; i-1; i ; i+1; …; N中,选择一个对象实施抢劫。其中0表示不抢劫,其他数字表示选择一个对象抢劫;此外,他要决定是否准备反击。根据模型的设定,表7-4给出了“自然状态盗窃博弈”的收益矩阵。

表7-4:自然状态盗窃博弈

抢且赢           抢且败          不抢                   

准备反击、抢赢

未受攻击

未准备反击,

不抢,未受进攻

未准备反击,

不抢,受进攻

不抢,准备反

击,且败

 

诺齐克根据计算每种得益出现的概率,进而确定了参与人在“自然状态盗窃博弈”中选择哪个行动组合(进攻的或防守的)来实现其最大预期回报。诺齐克发现,如果在N人群体中存在一个N-1人的联盟,那么联盟N-1的最小得利和孤立的个人i的最小得利是一样的。[9]因此,任何孤立的个人都将准备反击,并进攻N-1联盟中的一个人。进而该博弈转化为表7-5的收益矩阵。

 

表7-5:i VS N-1的“自然状态盗窃博弈”

抢且赢        抢且败

 

进攻且赢

 

进攻且败

 

 

根据上述博弈事件中各种可能情况的相应概率,孤立行动者i和N-1联盟的得益都将变成M-c-d。但是在自然状态下,保护单个人收益为M-c-d的国家并不存在,因此,诺齐克认为由行动者组成的保护性联盟就是可欲的。联盟内部通过达成不相互抢夺的协议,分担公共保护的成本,并联合防范外部行为人的可能进攻。诺齐克证明,假定一个有S个成员构成的联盟中,当çSç<çNç/2 时,存在对于保护性联盟的规模收益递增性,并能保证联盟的得益为正;而当联盟规模达到çSç>çNç/2时,每个参与者对联盟增加的边际贡献率比他之前所有参与者增加的边际贡献率更大;也即,随着S增大,每个参与者通过试图抢夺N-S中的一个参与者而给组织的收益增加一个固定的数量,同时又以递增的数量减少了对联盟内部所有之前的参与者的平均保护成本。但一个特殊的状态是在çSç=çNç/2时,此时参与者(çNç/2)+1的边际贡献小于参与者çNç/2的边际贡献。因此,此时没有参与者会对参与者(çNç/2)+1进行抢劫,而他对联盟的贡献仅仅是减少了他需要分担的保护成本。

如果排除çSç=çNç/2的特殊情况,那么该博弈就会存在一个非空的核,在这个核中必然存在一个分配状态x=(M1,…Mi,…Mn)。这个分配状态得以维持,是因为较大的保护性联盟形成后,每个内部参与者都同意不相互抢夺,于是节省了内部的盗窃成本和保护成本之类的资源浪费。这实际上在自然状态下提供了联盟内部成员每人享有的1/N的产权。但这种均等化的分配格局不是唯一的,对于保护性联盟而言,它也可以执行一个不平等的收入分配,而这种不平等的收入分配同样具有稳定性。因为,尽管收入不是均等分配的,但所有参与者都愿意接受,而不愿意放弃该联盟提供的保护。

在模型的最后,诺齐克指出,所有行为人为了去实施对应于博弈的核而引致的产权结构,而一致同意建立的大的保护性联盟,恰恰是最弱意义上的国家。它是被行为人在互动博弈中创生的,虽然每个人在行动之初并没有以国家的建立作为行为目标。国家的出现,是作为自然状态下盗窃博弈的一个核而出现的,与之对应的产权系统也是一样。因此,在该类型的合作博弈中,国家可以被视为允许行为人通过保证他们产权的安全而获得帕累托最优结果的一个有效率的制度。这种保证使他们避免了在没有国家的状态下引发的抵抗成本和盗窃成本的耗费,进而国家对于作为整体的群体系统而言具有纯粹的分配性特征。

在《知识在社会中的利用》[10]一文中,哈耶克将完全竞争市场看作一种信息系统,其中一组交易信息经由竞争性价格向经济主体传递,以反映有关资源的社会稀缺程度的全局信息。在该系统中,经济主体单靠完全竞争市场的价格信息就可以依赖个人理性逐案最优地实现帕累托效率。但哈耶克发现,一个经济系统的信息内容并非由完全竞争市场的价格机制所能描述,它还包括更多的信息内容。哈耶克指出,任何一个经济系统都含有远比一个价格体系所能描述的更为丰富的信息网络,这些信息网络包括,制度、经验规则、习俗、惯例,以及信念的合成。在经济行为人无法依据市场价格来分散行动或价格机制运行成本过高时,以上信息网络将传递大量的有关行为人预期行为的信息,以帮助经济主体做出合理的决策。因此,自发秩序本质上类似于一种信息装置,它在竞争性市场价格不能为完全地分散化和协调解决活动提供足够的信息时,将补充经济系统的信息内容。更明确地说,价格机制传递着反映资源稀缺程度的信息,并由此形成对行为人经济行为的激励体系;而自发秩序则传递着那些不能由竞争性价格完美协调的预期行为的信息,并产生对此类被协调活动的激励。自发秩序有助于互动行为的经济主体“将记忆编码”,并将他们所参与的非完美信息记忆的博弈,转化为由自发秩序所支持的近完美信息记忆的博弈。[11]这一转变的信息效率表现为,它促使经济行为人能够在博弈中采取稳定的行动策略,而对于特定类型的博弈而言,这些策略在信息上是高度稳定且有效的。


[1] 同上书,第33页。

[2] See Sen Amartya. (1967) “Isolation Assurance and the Social Rate of Discount”, Quarterly Journal of Economics, vol. 81.112-124.

[3] 参:谢识予,《经济博弈论》,复旦大学出版社,2004年,第6-9页。

[4] 参:肖特,《社会制度的经济理论》(中译本),上海财经大学出版社,2004年,第39页。

[5] 参:肖特,《社会制度的经济理论》(中译本),上海财经大学出版社,2004年,第43页。

[6] 同上书,第43页。

[7] 同上书,第43页。

[8] 参:罗伯特.诺齐克,《无政府、国家与乌托邦》(中译本),北京:中国社会科学出版社,1992年。

[9] 参:肖特,《社会制度的经济理论》(中译本),上海财经大学出版社,2004年,第70-75页。

 演化博弈论 自发秩序演化的四类博弈问题(2)

[10] 参:哈耶克,《知识在社会中的利用》,载《个人主义与经济秩序》,上海三联书店,第116-136页。

[11] 参:肖特,《社会制度的经济理论》(中译本),上海财经大学出版社,2004年,第156页。

  

爱华网本文地址 » http://www.413yy.cn/a/9101032201/336043.html

更多阅读

老板抢业务员的客户 老板最喜欢的四类业务员

  自从我写了“最受经销商喜欢的业务员”和“最受买手喜欢的业务员”这两篇文章之后,有很多业务员打电话和发邮件给我,问我还可不可以多写一些此类文章?我认真仔细想了想,既然此类文章有市场,猜想这一类文章或许对业务员的职业发展或

56岁创业:亿万富翁尹明善的另类创业路(2)

尹老先生受到挫伤。又八方找关系、托熟人,看看有没有后门。一个精通此道的给了他建议,“你就办个所吧。厂和公司条规苛严,所就没那么严了。验资只要10万元,也不管你的场地是茅草屋还是金銮殿,因为条规上没写。”    从此,一个名叫“

56岁创业:亿万富翁尹明善的另类创业路(1)

白手起家,56岁创业,7年做到18个亿。这个人,这个总是若有所思的人,已经思考了一辈子了。平时穿套青西装,远看或照片上看像个青年!其实六十老翁也。但精神倒是不像,这样子也令人称奇。沉默寡言。每个见过他的人都说他沉默寡言,一生如是,老来也

声明:《演化博弈论 自发秩序演化的四类博弈问题(2)》为网友彩色记忆分享!如侵犯到您的合法权益请联系我们删除