反协调博弈对称协调博弈随机稳定性研究文献综述-爱华网

摘要：应用进化博弈理论来研究对称协调博弈中的均衡选择问题即随机稳定性，已成为博弈理论的一个热点，许多博弈理论家对之进行过广泛的研究。由于这方面的研究文献多而杂，本文以均衡选择为主线，从实验经济学与理论研究两方面系统地评述了相关文献的基本内容及其相应的结论，在此基础上对已有研究的不足提出了改进意见。

关键词：对称协调博弈；随机稳定性；均衡选择

On the literature comments of equilibrium selection in symmetry coordination

Abstract: To analyze the equilibrium selection in symmetric coordination game with applied evolutionary game theory has become an area of too much concern. Many researchers of game theory have done comprehensive researches on this field. Given to the scramble literature in the field, with equilibrium selection as a main sequence of instructions the paper reviews systematically and comprehensively the related literature and the their conclusions from both sides of laboratory Economics and theoretical researches. On this basis, the paper further offers suggestions for improvement of the former researches.

Keywords: Symmetric coordination game; stochastic stability; Equilibrium selection

引言

非合作博弈理论在经济学界产生了巨大的影响，有人甚至把它比做物理学中的牛顿定律。然而，随着理论研究的深入及实验经济学的发展，来自博弈理论家与实验经济学家的批评越来越多。与古典经济学一样，非合作博弈理论建立在两个假定之上，一是最大化，即理性参与人对现实世界有特别清楚的了解，且能够根据环境的变化作出迅速的最优反应；二是一致性，即每个参与人都能够正确地理解其他参与人的行为，并据此预期来进行决策。显然，这两个假定与现实中参与人的行为相差甚远。因此，由之得出的许多结论也难以达到理想的预测效果，特别在处理协调博弈[2]中多重严格纳什均衡问题时，非合作博弈碰到了难以逾越的困难。尽管博弈理论家在理性框架下基于不同的角度对之进行了广泛而深入的研究，但却没有得到令人满意的解决方法。正如Ken Binmore(1995)在给Weibull[1]的“evolutionary game theory”一书作的序言中指出：“However different game theorists proposed so many different rationality definitions the available set of refinements of Nash equilibrium became embarrassingly large, Eventually almost any Nash equilibrium could be justified in terms of someone or other’s refinement”；也如博弈论理论家Larry Samuelson(1993)[2]所说的“Different refinements yield different predictions, transforming the problem of multiple equilibrium into a problem of multiple refinements”。正当非合作博弈理论家们感觉到束手无策的时候，20世纪80年代出现了一缕新的曙光，生态学家Maynard Smith（1973）[3]应用博弈思想并结合生物学的优胜劣汰理论提出了进化稳定策略而开创了进化博弈理论的研究。1992年在康奈尔大学召开“进化博弈理论”的国际学术会议更是激发经济学家们的浓厚兴趣，此后在经济学界掀起了研究进化博弈理论的热潮。进化博弈理论除了应用研究之外，更多的应用解决均衡选择特别是协调博弈中的均衡选择问题。本文将就理论界对协调博弈中的均衡选择问题研究文献进行评述，并在此基础上提出已有研究中存在的不足，为进一步提出改进方法及其理论探讨奠定基础。

一、对称协调博弈的分类

协调博弈就是指策略组合有相同偏好，当有多个纳什均衡时，如果其他人都能够正确地预测策略组合那么该组合就是唯一的最优反应（Crawford, P. V. and Haller, H. 1990）[4]。当策略是一个闭区间上的标量时，这样的策略环境容易产生行为主体的相互作用，这种相互作用意味着其他参与人增加努力会使余下的参与人追随，协调博弈中策略互补性是引起多重均衡的前提条件(罗素·W·库珀 1999)[5]。对称协调博弈则是指无角色区分的参与之间进行的协调博弈，它表现在支付函数的对称上，策略集是一样的。从形式上看：对称协调博弈就是博弈支付矩阵主对角线上的元素都是纳什均衡的博弈。协调博弈的均衡选择并不涉及到激励问题而依赖于参与人之间对博弈如何进行有充分相似的信念。正是由于信念形成是一个相对复杂的过程，所以对协调博弈均衡问题的研究也就显得非常复杂，不同的信念形成过程动态就会产生不同的均衡。为了便于分析，本文将把对称协调博弈分成三类：支付占优与风险占优不一致；支付占优与风险占优一致（严格纳什均衡可进行帕累托排序均衡）及无占优性可比的协调博弈。

1.1 支付占优与风险占优不一致的协调博弈

这类博弈最典型的例子就是猎鹿博弈。有两个打猎人，他们可以合作去猎鹿也可以单独去猎兔，如果合作猎鹿，那么两个都可以分得4个单位的支付；如果一个人去猎鹿而另一个人去猎兔，那么前者支付为0（因为猎鹿需要两个人合作可以成功）后者的支付为2；如果两个人不合作都去猎兔，那么他们都可以得到3单位的支付。该博弈的支付矩阵如下：

显然该博弈有两个纯策略严格纳什均衡即要么两个合作猎鹿，要么两人去猎兔与一个混合策略纳什均衡。按Harsayi and Selten(1988)[5]的定义，纯策略猎鹿是支付占优纳什均衡、纯策略猎兔是风险占优纳什均衡。猎兔策略是一个保险策略，而猎鹿博弈则是一个帕累托效率策略但由于策略的不确定性而使它具有较大的风险，因此，均衡选择取决于参与人对风险的态度。

1.2 支付占优与风险占优一致的协调博弈[3]

该类博弈典型例子就是中间值博弈、选美博弈或者平均意见博弈，策略值离中间值越远则成本越大。博弈双方的支付用代数式表示为：，其中。这种协调博弈中存在多当具有帕累托可比的严格纳什均衡，并且博弈双方的偏好具有一致性，严格纳什均衡具有帕累托可比性。如下面支付矩阵所表示的协调博弈：

此类博弈有两个严格纳什均衡（X1，X1）；（X2，X2），其中第二个均衡既是风险占优又是支付占优均衡，并且博弈双方有完全一样的偏好。

1.3 无支付占优与风险占优区分的协调博弈

该类博弈最典型的例子就是左行右行博弈。两个在一条路上相对而行的行人，如果都向左或者都向右那么他们就不会相碰，因此，都获得支付1个单位.但如果两个中一个向左前方，一个向右前方那么他们就可能相碰，走起来不方便。这种情况博弈双方有完全相同的偏好，协调博弈中两个严格纳什均衡是无差异的，而该博弈的两个严格纳什均衡就是无差异的。

要解决协调博弈均衡选择问题，首先需要解决各参与人对其他参与行为的预期问题。第二、三类博弈由于博弈双方偏好完全一致，均衡选择问题只取决于支付大小而与风险无关，因此，可以通过博弈前的非约束、无成本的交流或者通过第三方提示而得到解决行为预期问题。第一类博弈风险性与收益性不同，由于参与人对风险与收益的不同看法而使得此类博弈的处理显得特别复杂，也正因为如此，该类协调博弈成为了理论界研究的重点。

二、协调博弈均衡选择问题的实验经济学研究的成果评述

从已有的研究文献来看，对称协调博弈均衡选择基本沿着两条路径来进行的。一是实验经济学方法，即通过对参与人真实行为的研究，重点探讨影响协调博弈中均衡选择的因素；二是沿着纯理论研究方法，通过构建数学模型来解释实验结果，进一步完善进化博弈理论体系，以便更好地预测参与人的行为。实验经济学研究协调博弈的目的就是为了寻找影响均衡选择的因素，为理论研究提供现实的证据，减少理论研究的盲目性，推动理论研究的发展。

2.1 策略的显著性影响协调博弈的均衡选择

运用实验方法来研究协调博弈均衡选择问题至少可以追溯到Schelling（ 1960）[6]。Schelling通过一系列的实验报告得出了第二类、第三类协调博弈的均衡选择结果并发现参与人常常通过焦点来协调他们的行为。他认为：在现实中，参与人可能通过自己的经验、文化、心理等联想而使一些均衡较之其他均衡更突出，并产生自动实施的预期而倾向于选择那些“唯一”的均衡。正是因为一些策略可能比其他策略更突出或者更显著，参与人的选择结果更多地依赖于策略的显著性而非博弈支付。博弈前的无成本、非约束、不可验证的交流有助于解决第二类、第三类协调博弈的均衡选择问题，并且系统会收敛于帕累托效率均衡。现实中第二类、第三类协调博弈的情况是很少见的，多数情况下，参与人的偏好不会完全一致，存在风险与收益之间的权衡。在这种情况下，需要通过如法律、法规等强制性措施来使博弈收敛到特定的均衡。Schelling还研究了法律与显著性即焦点之间的关系，并指出法律除了通过其制裁功能来改变博弈支付进而影响参与人行为以外，更重要的是由于其信息的公开性使得相应策略具有焦点的功能，焦点使个人行为更快地收敛，即法律具有快速转变已经形成的秩序的功能。

schelling是较早运用实验方法来研究协调博弈中均衡选择问题的学者之一，不过他所用的实验是非正式的且局限于小群体之中的，就连他自己也认为他所用的方法是“不科学”的。Judith Mehta, Chris Starmer, and Robert Sugden(1994)[7]模仿Schelling(1960)的实验更正式地考察了Schelling(1960)所提出的焦点在简单第二类、第三类协调博弈中对均衡选择的作用。他们通过两组实验的比较，验证了Schelling提出的“焦点对协调博弈中的均衡选择起着非常重要的作用”的观点。Aumman(1987)[8]认为博弈前无成本、非约束的交流会使协调收敛到效率均衡，而对第一类有风险性与收益性冲突的协调博弈，博弈前的交流不能使系统收敛于效率均衡，因为前者的交流是可置信的，而后者无成本、非约束交流是不可置信的。

2.2 风险性影响协调博弈的均衡选择

Van Huyck, Battailio and Beil (HBB，1990)[9]系统地研究了协调博弈的均衡选择问题，目的是探讨以下两个问题：（1）在策略互动的博弈环境下，纳什均衡是否是一个好的预测；（2）当存在多个纳什均衡时，哪一个均衡最后会出现以及均衡的出现是否与博弈特定均衡的显著性有关。他们进行了两种试验：一是参与人进行随机匿名配对博弈，二是参与人可以自己选择博弈对手。结果发现，后者可以很快地达到支付占优均衡，而前者却很难达到此结果。显然，纳什均衡能够很好地预测被观察到的行为，这是不争的事实。另外他们在实验中发现参与人并不总是选择帕累托占优的均衡，多数情况下会选择风险占优均衡。该结果与一般认为帕累托均衡是一个自然的焦点的观点不一致，即协调失败可能会在实践中出现。最后，在实验中他们还证实了劣策略可能影响纳什均衡选择，因此在非合作博弈理论中的重复剔除严格劣策略的方法是值得商榷的。他们的实验结果成为了后续理论研究的出发点。

2.3 初始提示影响协调博弈的均衡选择

Cooper et al.,(1992)[10]通过实验验证了博弈前的交流有利于参与人协调于支付占优状态，Berninghaus and Van Huyck, Raymond Battalio and Richard Beil(1991)[11]通过实验研究了平均意见协调博弈中参与人人数、支付占优、保障水平及历史事件的显著性等对均衡选择的影响。实验结果发现，在有唯一支付占优均衡且有唯一保障性均衡的平均意见博弈[4]中，在支付占优与保障性都不具有显著性的情况下，重复互动产生了一个简单的动态并且收敛到由初始中位数决定的无效率均衡。因此，如果给定一个初始中间值，那么在未来时期，这个中间值就变得可以预测了。因此，初始提示[5]是影响协调博弈中均衡选择的重要因素。

2.4 重复次数影响协调博弈的均衡选择

Siegfried K. Berninghaus, Karl-Martin Ehrhart(1998)[12]通过实验考察了参与人重复次数对协调博弈中均衡选择的影响，他们是基于以下假说来进行试验的：协调于帕累托均衡可以获得更多支付，当博弈次数重复时，参与人为了长期支付而愿意在开始时牺牲短期支付，表现为更有耐心寻求协调于帕累托均衡。实验结果发现：当博弈重复次数为10次时，参与人常常选择非帕累托效率均衡；当均衡重复次数为30次时，两种均衡都有可能被选择；当博弈重复次数为90次时，参与人常常选择帕累托效率均衡。通过减少博弈的重复次数就得到了大群体时HBB（1990）的结论，当博弈重复次数足够大时均衡结果就是帕累托优势均衡，该结论支持了学习导向理论。一种解释就是参与人意识到效率均衡的存在，在重复博弈早期就会通过选择而发出希望协调于支付占优均衡的信号。另外，在实验中他们通过改变协调失败的成本，发现高协调失败成本会阻碍风险厌恶参与人改变自己行动的可能性，这与Myerson，Roger(1978)[14]所指出的失败成本越大，参与人犯错误的概率就越小的观点是一致的。

2.5 互动结构影响协调博弈的均衡选择

Claudia Keser, et. al. (1998)[15]通过了一系列实验研究了局部互动结构与均衡选择的关系。他们比较了有局部互动结构与没有局部互动结构的实验。结果发现在三人群体且没有局部互动结构时，博弈很快就均衡于帕累托效率均衡，该结果与Van Huyck et al. (1990)的小群体结论是一样的。当参与人处于局部互动结构中时，他们发现博弈协调于风险占优均衡。Huyck et al.（1997）[16]在另一次实验中，比较了封闭邻居与开放邻居结构对协调均衡选择的影响。结果发现，前者更易于协调于支付占优状态，其原因在于开放邻居中支付占优的风险性大于封闭邻居支付占优的风险性。同时他们也发现当存在更多迭代时，博弈更多地协调于支付占优均衡。因此，局部互动对协调博弈中的均衡选择问题起着非常重要的作用。

2.6 博弈前的“廉价磋商”影响协调博弈均衡选择

Russell Cooper et. al (1992)[17]研究了博弈前的廉价磋商对协调博弈中均衡选择的影响。他们考察第二类博弈[6]与猎鹿博弈。实验发现在第二类博弈中，单向博弈前廉价磋商能够提高帕累托占优均衡出现的可能性，但双向博弈前廉价磋商却不一定会降低协调失败的频率。猎鹿博弈中双边博弈前廉价磋商总是会选择帕累托占优均衡而不是选择风险占优均衡，而单边博弈前廉价磋商却不会。也就是说，博弈前的廉价磋商是影响协调博弈均衡选择的又一因素。

以上学者根据实验分别从不同的角度研究了影响协调博弈中的均衡选择问题的因素。从他们的研究中可以看出：博弈支付并不是影响均衡选择的唯一因素，现实中影响协调博弈的均衡选择因素是多方面的。因此，要较准确地描述参与人的行为就必须综合考虑影响参与人决策过程的各种因素。

三、协调博弈均衡选择问题的理论探索成果及评述

实验的结果可以为理论探索提供明确的方向，减少理论研究的盲目性。从实验经济学的研究可以看出，经济因素与社会因素都会影响协调博弈的均衡选择。因此，要更好研究参与人行为选择就必须深入到参与人的决策过程中去，系统地考察影响参与人决策的各种因素，只有这样才能使理论更好地接近于现实。一般而言，理论研究需要建立在一定基本概念基础上，与协调博弈均衡选择问题研究的相关概念主要有：Harsanyi and Selten(1988)[18]提出的支付占优与风险占优[7]的选择标准及Foster and Young (1990) [19]提出的随机进化稳定状态[8]（stochastic stable state）。与确定性动态下的均衡相比，随机稳定性概念抓住了随机因素对系统的影响，从而更为现实地描述参与人的行为，因而它比进化稳定性及渐近稳定性等局部动态概念能够更好地描述随机因素的影响。进化稳定性及渐近稳定性只能描述系统进入某一吸引子的吸引域时才可预测系统的长期行为，而无法考察吸引域之外的行为，也无法明确系统是如何达到吸引域的。随机稳定性是统计意义上的概念，它可以描述系统全局动态性质，允许系统在不同均衡之间跳动，从长期来看系统花费大多数时间在某一均衡，那么该均衡就是随机稳定的。正因为如此，随机稳定性概念一经提出便得到了生态学家、社会学家及经济学家的青睐，学者们纷纷应用它来研究经济及社会现象。

实验经济学研究表明，影响系统达到均衡因素不仅包括博弈支付更重要的是包括确定性动态过程及其随机影响因素。博弈支付一般具有相对固定性且难以改变的。系统的确定性动态过程也是相对稳定的且由系统本身性质所决定的，随机因素影响具有易变性，这不仅表现在它本身的难以描述，而且随机因素包含的内容太多，正因为如此，不同学者基于不同角度的研究也就得不同的结论。目前理论研究文献主要集中于以下两个方面：一是假定突变率不变如Michihiro Kandori, Greorge J,. Mailath, Rafael Rob (KMR)1993[20]、Peyton Young(PY)1993[21]; Glenn Ellison2000[22]；二是假定突变率可变如James Bergin and Barton L. Lipman(1996) [23]; Jack Robles(1998)[24]等等。

3.1 基于不变突变率的理论研究

3.1.1 不变突变率的理论研究成果

Michihiro Kandori, Greorge J. Mailath, Rafael Rob (KMR)1993首次运用Foster and Young（1990）[9]的方法考察了离散条件下系统的随机稳定性并给出了相应的算法。他们的核心思想就是在模型中引入了确定性达尔文动态，在此基础上再引入了由正态分析描述的随机影响因素，从而使得确定性动态过程变成了随机动态过程。在此模型中，他们假定背景突变的存在及每个参与者都在任何时候都以相同的概率发生突变而选择突变策略，由此便保证了马尔可夫链的遍历性，因此，随机动态系统存在平稳分布，他们采取了Freidlin, M. I and Wentzell, A . D. (1984)[25]提供的决策树法来求系统平稳分布即随机稳定状态。决策树法的基本逻辑如下：一是引入一种状态到另一种状态的离开阻抗（也就是离开某状态所需要的突变数）；二是找到每一个常返状态[10]（Recurrent state）中吸引子（attractor）对应的最小阻抗的路径，由此研究吸引子的吸引域宽度，或者求出每个吸引子的随机潜力；最后，有最宽吸引域或者最小随机潜力的吸引子就是随机稳定状态。在KMR一文中，由于假定在任何状态任何时间每个个体都以相同的非零突变率选择其他策略，因此，离开阻抗直接可以通过突变者的个体数来描述。阻抗决定吸引域的半径即宽度，吸引域的宽度决定系统回复到均衡的次数，进而确定随机稳定状态。正因为如此，KMR一文的所有定理的结论都是围绕着“吸引域最宽的吸引子就是随机稳定状态”这一结论而展开的。

Peyton Young（1993）应用与KMR相同的方法研究了离散条件下对称协调博弈的随机稳定性，他主要考察社会习俗的形成问题。他认为由于参与人有高昂的信息搜寻成本，每一个人都只能依据非常有限的博弈历史来进行决策，均衡选择并不是依据其本身所具有内在显著性，而是由系统演化的动态过程所决定的。动态过程也就是参与人对其他参与人行为的信念即预期形成的适应性学习过程。只要信息充分不完全性并且参与人永不犯错误，那么满足弱非循环博弈的适应性学习过程以概率1会收敛到纯策略严格纳什均衡；不完全性可以有效防止博弈锁定于次优循环，有限记忆则可以使参与人很快忘记过去协调失败的行为，这两个条件在一起实际上就是保证系统不会被粘住在一个均衡，也就是说随机因素的影响使系统在不同吸引域之间不断跳跃。Young（1993）在其模型引入了适应性动态过程，在此基础上来引入随机因素，然后，通过Freidlin, M. I and Wentzell, A . D.提供的决策树法来计算系统的随机稳定状态。与KMR相比，两者尽管在形式上不同，但都没有超越“吸引域大的均衡就是长期随机稳定均衡”这一基本框架。另外，Young（1993）在文中给出了计算随机稳定状态的步骤：第一步求出在无扰动适应性动态下的常返状态。对一般的n人协调博弈，常返状态的求法是非常复杂的，但如果协调博弈是弱非循环且样本是充分不完全，那么常返状态就是对应于博弈中的严格纳什均衡；第二步计算从一个常返状态到另一个常返状态的最小阻抗。理论上说这就相当于解决一系列的最短路径问题，但实际上可以直接通过博弈的支付矩阵来计算[11]；第三步依据以上的阻抗来构建“方向树”，并且寻找有最小阻抗的树，除完全相同阻抗的情形外，随机进化稳定状态一般都是唯一的。Young（1993）还是没有跳出不变突变率的框架，尽管在处理方法不同于KMR，但核心思想是一样的，第一、文中的适应性动态依然是支付单调的；第二、与KMR一样，文中假定突变率不变，因而突变率与吸引域的宽度无关，突变的作用与KMR完全一样，是为了使系统在不同状态之间跳跃，系统状态的吸引域半径完全是由博弈支付决定的；第三、结论与KMR一样，只是说法不同，即吸引域宽者就是长期随机稳定状态。

从以上两文可以看出：引入动态过程是为了常返状态的存在性；引入突变是为了使系统在不同常返状态之间跳跃；引入不变突变率是为了简化计算。有了前述的保证就可以得到“随机稳定状态即是吸引域最宽的常返状态”这一结论。正是因为这样，Ellision（2000）直接假定以上三个条件直接从吸引域及其宽度出发来分析系统的随机稳定状态。

Ellision（2000）直接从转移矩阵出发来定义状态的吸引域[12]，抓住了求随机稳定状态方法的核心思想，绕过了求不变分布，直接利用吸引域半径来求解协调博弈中的均衡选择问题。其结论为：如果离开常返状态的阻抗大于进入常返状态的阻抗，也就是说，当离开吸引域的阻抗大于进入吸引域的阻抗时，也就是离开的难度大于进入的难度，因此，系统的进化稳定状态就一定在此吸引子之中。当然，如果是对称协调博弈，那么常返状态就是由纯策略严格纳什均衡组成，随机稳定状态就是最小随机潜力的状态。在Ellison模型中一步一步的演化比休克式演化的速度更快，为了在模型中体现这一点，他把系统向均衡状态演化过程的成本减掉而定义了修进的共轭半径，共轭半径的修进无形地增加了向均衡靠拢的可能性也就是增加了吸引域的宽度。事实上，从分析可以看出，Ellison的结论依赖于参与人在任何时候任何状态都有不变的突变率。因此，博弈的随机稳定状态完成由博弈的支付确定的，并且有最大离开阻抗或者最小随机潜力的就是随机稳定状态。

3.1.2 不变突变率理论研究的评述

以上三篇研究对称协调博弈随机稳定性文章在学术界被多次引用，足以说明这些文章已经得到了学者们的重视，其共同的特点就是假定突变率不随时间与状态的变化而变化，因而，把求随机稳定状态直接转化为求吸引子或者严格纳什均衡的吸引域宽度，最宽吸引域所对应的吸引子就是随机稳定状态。另外，不变突变率带来的一个非常重要的结果就是吸引域完成是由博弈支付确定的，因而，只要确定了基础博弈，系统的随机稳定状态就已经确定了。文中引入随机动态的主要作用就是使系统在不同吸引子之间反复跳跃而不被粘住，从而达到求随机稳定状态之目的。尽管形式不同，他们的结论却是一样的，即“在有风险占优与帕累托占优的协调博弈中”系统的长期随机稳定状态是有较宽吸引域的风险占优状态，具体地说：

a、动态过程与常返状态的存在性。KMR的达尔文动态是典型的支付单调动态，所谓支付单调动态就是指支付越多则选择人数就越多，即参与人的行动是基于博弈支付而作出的，支付单调动态确保对称协调博弈中常返状态就是严格纳什均衡集。 PY的适应性动态（实际上就是一种相对群体分布的最优反应动态），在满足弱非周期条件并且样本不完全及参与人永远不犯错误，那么适应性动态就以概率1收敛到严格纳什均衡；Ellison（2000）模型脱离了博弈的动态过程，他直接假定常返状态的存在性（默认动态过程是支付单调的或者博弈满足弱非周期性），并且认为在弱非周期条件下常返状态就是严格纳什均衡。

b、随机因素的引入与遍历性。KMR、PY与Ellison都是假定不变突变率，但他们没有说明突变率不变的原因。不变突变率的随机因素引入保证动态过程满足遍历性要求，从而系统不会被粘在某一处，即不会出现锁定（lock in）的情况，保证系统在不同均衡状态之间跳动。具体地说：为了保证不变分布的存在性，PY（1990）通过假定随机因素的累积作用而保证遍历性的存在；KMR则是假定状态转移矩阵各元素不为零而保证系统不会被粘住；PY（1993）与Ellison（2000）则是假定博弈满足非周期条件而使系统收敛到严格纳什均衡，同时假定样本不完全或者有限记忆（也就是参与人很快会忘记过去而不会被锁定）而保证系统不会被粘住。有了常返状态存在性与遍历性条件就可以保证系统存在一个平稳分布，于是求随机稳定状态问题就转化为求平稳分布。在此基础上直接应用Freidlin, M. I and Wentzell, A . D. (1984)的方法计算随机稳定状态。BL与JO两文没有直接求随机稳定状态，只是从数理逻辑上证明了随机因素可变时随机稳定状态也是可变的。

c、实验经济学、社会学及心理学的研究表明，参与人的突变率是随着随机动态系统状态与时间变化而变化的，也就是说随机动态系统的随机稳定状态不仅依赖于吸引域的宽度，而且也依赖于吸引域的深度，如何度量吸引域的深度是值得理论界探讨的。根据上面的模型，求解随机稳定状态实际就是解决两个问题：一是保证平稳分布的存在性；二是保证系统的常返状态的存在性。平稳分布可以通过背景突变率的存在性而假定满足遍历性。常返状态可假定基础博弈是对称协调博弈即得到满足。有了这两个假定，那么随机稳定状态就完全由常返状态的吸引域确定。因而，对吸引域的影响因素进行深入探讨是解决协调博弈的随机稳定性一条很好的途径。

3.2 基于可变突率的理论研究成果及评述

3.2.1 可变突变率的理论研究成果

首次对不变突变率假定提出挑战的是James Bergin and Lipman(BL 1996)，他们认为系统在不同状态突变率应该是不同的。特别是：如果突变来自于试验，那么有理由认为在帕累托占优的博弈中，处于帕累托状态均衡会比其他均衡状态的突变率更少；如果突变来自于参与经验的不足，那么重复次数更多的参与人犯错误概率就应该少于一次性博弈；如果突变来自于环境的约束，那么随着博弈的进行，参与人对环境的熟悉程度会不断增加，因此，犯错误的概率也会应该越来越少。只有深入到突变产生的过程中去才能更好地研究协调博弈中的随机稳定性。通过研究他们得到：随机系统的稳定性不仅依赖于博弈的支付，而且依赖于突变产生的过程，不同的突变率决定了不同的随机稳定状态。因而，要准确地研究系统的稳定性就必须深入到系统突变产生的过程中去。

Jack Robles(JR 1998) 认为增加不变突变率使系统得到唯一的随机稳定均衡是前面三篇文章的共同点，他们并没有把突变产生的原因加入到模型中去，因而与现实是不相符合的。实验证据表明随着博弈重复次数的增加，策略选择中的随机因素的影响会不断地减少；随着博弈的重复，参与人更为熟悉他们所处的环境并能够更准备地预期对手未来的行为而减少试验与错误的次数。因此，只有把把突变产生的原因即突变过程引入到博弈模型中去才可以更为准确地描述参与人的行为，即假定突变率随时间而减少是合理的，突变率应该是内生性的。他们考察了突变率随系统演化时间变化而变化的情况，认为突变率趋于零的速度不同就会使动态系统不满足遍历性要求。因而，难以通过已知的方法来求系统的随机稳定状态。他得到如下结论：如果随机动态满足遍历性要求，那么突变率趋于零时系统就会达到长期均衡，其结果与小的常突变率的极限行为是一样。然而，突变率趋于零的速度不同而使得遍历性这一要求很难满足，因此考察突变率趋于零的不同的速度对协调博弈均衡选择问题的影响是非常重要。由突变率下降速度不同而导致遍历分布不存在时，他采用非平稳马尔可夫链来进行分析，并用了历史依赖的弱遍历性与强遍历性两个概念来描述其结论。他们并没有得出均衡与突变率收敛零的速度之间的具体关系，只证明了突变率并不能决定系统的最终状态，随机稳定状态是依赖于系统的初始条件的。

Sandholm, H.W. and Pauzner, A. (SP 1998)[26]研究了既有群体增长也有个体突变的情形。他认为KMR与PY等假定固定群体与现实是不相符的，现实中群体的规模随着时间的演化是不断增长的，要更现实地研究协调博弈中的均衡选择问题就必须把群体增长率纳入到模型中来。在演化过程中增加群体增长率会产生两种效应：第一个效应是直接的，群体增长使得在均衡之间跳跃随时间的变化而变得越来越少，因此，当群体增长足够快时，跳跃的可能性就会慢慢地消失；第二个效应是相对的，当群体的增长率足够大时，通过突变从风险占优均衡跳到支付占优均衡的困难就会越来越大，当群体为无穷大时，这种效应就会非常明显。群体的快速增长使得进化过程变得非平稳，因此，无法保证平稳分布的存在性。他们通过引入伯努利动态来描述参与人修进自己的策略过程，并且假定群体按照对数增长率来增长，在此条件下他们证明了系统的均衡选择是历史依赖的。

Bhaskar, V. and Vega-Redondo, F. (BV 2004)[27]考察了多个有局部互动的地点的情况下协调博弈中均衡选择问题。他们引入了两种动态：一是同一地点内个体之间按模仿者动态进行选择，二是地点之间个体按向高支付的地点迁移而引入迁移动态。并分别引入了突变率与迁移率，最后他们证明了在这种情况下，动态系统长期均衡于效率均衡即支付占优均衡。其实他们结论的道理很简单，因为迁移的存在使得无效率均衡变得不稳定，这与博弈前交流的作用是一样的。

3.2.2 可变突变率理论研究的评述

尽管可变突变率模型更现实地考察了参与人的行为，但也存在固有的缺陷：一是这些模型都没有区分突变率与错误率，把突变率与错误率混为一谈，突变是无目的性的，假定在任何状态下任何时间都不变有一定道理，但错误率就能这样假定；二是与可变突变率模型都没有结合到现实中参与人行为，没有结合社会学心理学等的研究成果，仅仅从数学理论上给予描述，难以应用于描述现实人的行为，难以很好地应用于研究协调博弈的随机稳定性。

三、进一步研究的方向评述

实验研究表明，对称协调博弈不一定收敛到风险占优均衡，但可能收敛到其他的均衡。支付只是影响均衡选择的因素之一，不变突变率相关理论并不能很好地解释现实中参与人的行为，其合理性是令人署凝的，第一，人们常说的“习惯成自然”，即当某种行为被多次选择时极可能内化为参与人的行为指南，这时参与进行试验或者发生错误的可能性就会大大减少，发生错误的可能性随着选择次数的增加而增加；第二，消费理论中的“羊群行为”，即当某种行为被周围大多数人所选择时，在一定条件下参与人极可能陷入信息陷阱而忽视自己的信息，一旦达到这种状态参与人发生错误的困难就会很大；第三，Myersion (1991)[28]基于“越昂贵的策略犯错误的可能就越少”这一现实而提出相对均衡策略的稳键策略概念，认为越昂贵的错误犯的可能性就会越少；宏观经济学中的“效率工资理论”说明高于平均工资的工资增加工人被解雇的机会成本，从而刺激工人努力工作而减少犯错误，大大降低了参与人选择不可预见行为的可能性；第四，在帕累托效率状态时，参与人出现错误的可能性会少于其他状态，当然还有许多其他因素影响系统的均衡选择。总之，为了更好地描述参与人的行为，就需要分清哪是突变率，哪是错误率，在此基础上再研究协调博弈的随机稳定性会更具现实意义。

结束语

非合作博弈理论无法解决协调博弈的均衡选择问题原因至少有以下两个方面：一是该理论把重点放在参与人的理性选择而不在参与人的行为预期方面；二是行为预期是需要经历一个非常复杂动态的过程（如适应性动态过程），非合作博弈理论在理性框架下无法把过程纳入到模型当中，因而在解决协调博弈均衡选择问题时碰到了难以逾越的障碍。进化博弈理论则把社会学、心理学及实验经济学等研究成果纳入到模型中，结合已有的理论方法更具体地研究协调博弈的均衡选择问题，使得理论模型更接近于现实，以便更好地解释参与人的行为，达到探索行为规律并利用规律之目的。

参考文献

[1] Jörgen W. Weibull(1995): Evolutionary game theory[M], The MIT Press

[2] Samuelson, L. (1993): Recent advances in evolutionary economics: comments[J], Economics Letter. 42, 313-319.

[3] Maynard Smith, J. and G. R. Price.(1973): “The Logic of Animal Conflicts” [J], Nature, , (246): 15-18.

[4] Crawford, P. V. and Haller, H. (1990): Learning how to cooperate: Optimal play in repeated coordination games[J], Econometrica, 58, 571-595.

[5] 罗素·W·库珀（著），张军，李池译（2001）：《协调博弈----互补性与宏观经济学》[M]，第一版，中国人民大学出版社。

[6] Harsanyi, J. and Selten, R. (1988): A general theory of equilibrium selection in games[M]. The MIT Press, Cambridge, MA.

[7] Schelling, T. (1960): The strategy of conflict[M], HarvardUniversity. Press, Cambridge, MA.

[8] Mehta J., Starmer C., and Sugden R. (1994): The nature of salience: An experimental investigation of pure coordination games[J]. American economic review. 84, 658-673.

[9] Aumann, R. (1987): correlated equilibrium as an expression of Bayesian rationality[J], Econometrica, 55, 667-677

[10] Van Huyck, J. b. Battalio, R. c.,Beil, R. O. (1990): Tacit coordination games, strategic uncertainty[J]. American economic review. 80, 234-248.

[11] Cooper, R. D. V. Dejong, R. Forsythe and J. W. Ross(1992): Communication in coordination games[J], American economic review, 107, 739-771

[12] Van Huyck, J. b. Battalio, R. c. Beil, R. O. (1991): Strategic uncertainty, equilibrium selection, and coordination failure. Average opinion games. Quarterly journal of economics. 106, 885-910.

[13] Van Huyck, J. Raymond, C. and Frederick W. (1998): On the origin of convention: evidence from coordination games[J], American economic review. 107, 576-596.

[14] Myerson, R. (1978): Refinements of the Nash equilibrium concept[J], International journal game theory. 7, 73-80

[15] Keser C., and Ehrhart K., and Berninghaus K. (1998): Coordination and local interaction: experimental evidence[J]. Economics Letters. 58, 269-275.

[16] Van Huyck, J. Raymond, C. and Frederick W. (1997): On the origin of convention: evidence from coordination games, American economic review. 107, 576-596.

[17] Cooper, R. D. V. Dejong, R. Forsythe and J. W. Ross(1992): Forward induction in coordination games[J], Economics Letters, 40, 167-172

[18] Harsanyi, J. and Selten, R. (1988): A general theory of equilibrium selection in games[M]. MIT Press, Cambridge, MA.

[19] Young, P. and Foster, D. (1990): Stochstic evolutionary game dynamics[J]. Journal of theoretical biology. 38, 219-232.

[20] Kandori, M., Mailath, G. J., and rob, R. (1993): Learning, mutation, and long-run equilibria in games[J], Econometrica, 61, 29-56.

[21] Young, H. P. (1993): The evolution of conventions[J], Econometrica, 61, 57-84.

[22] Ellison, G. (2000): Basins of attraction, long-run stochastic stability, and the speed of step-by-step evolution[J]. Review of economic studies. 67, 17-45.

[23] Bergin, J. and Lipman, B. (1996): Evolution with state-dependent mutations[J], Econometrica. 64, 943-956.

[24] Robles, J. (1998). Evolution with changing mutation rates[J], Journal of economics theory. 79.207-223.

[25] Freidlin, M. I and Wentzell, A . D. (1984): Random perturbations of dynamical systems[M], Springer-verlag, Berlin/New York.

[26] Sandholm, H.W. and Pauzner, A. (1998): Evolution, population growth, and history dependence[J]. Games and economic behavior. 22, 84-120.

[27] Bhaskar, V. and Vega-Redondo, F. (2004): Migration and the evolution of conventions[J], Journal of economic behavior ＆organization.

[28] Myerson, R. (1991): Game theory: Analysis of Conflict[M]. CambridgeUniversity Press.

[1] 作者简介：张良桥，男，1968年11月生，湖南祁阳人，经济学副教授，中山大学岭南学院04级博士研究生，研究方向：经济模型博弈论与信息经济学。

[2]协调博弈就是指支付矩阵主对角线上的元素都是严格纳什均衡的博弈，它之所以成为囚徒困境[2]博弈之后又一类被广泛研究的博弈，原因之一就是它能够很好地反映严格纳什均衡之间选择问题。

[3] 这一类协调博弈的纳什均衡可进行帕累托排序的，也就是我们所说的满足策略互补性条件，它在宏观经济学中有广泛的用途。

[4] 事实上就是凯恩斯所说的选美博弈。

[5] 说明均衡选择问题与路径有关。

[6] 具有帕累托序严格纳什均衡的博弈。

[7]在对称的协调博弈中，有纯策略纳什均衡A，B，说（A，A）是风险占优均衡，如果对所有其他纳什均衡（C，C），A都是的最优反应。即选择该策略A可以获得比以相等概率选择其他两个策略更高的支付。风险占优是贝叶斯分析在不确定性下从单人决定向非合作博弈理论中多人决策问题的扩展。风险占优是贝叶斯分析在不确定性下从单人决定向非合作博弈理论中多人决策问题的扩展。不确定性情况下，单人决策中没有理由相信任何特定的先念预测优于其他的选择；然而，在非合作博弈中，每一个都可以运用支付矩阵的共同知识来决定其他参与人可能选择一些行为而不选择其他行为，因此，每一个人都可以推断出一些行为比另一个行为有更大风险。支付占优是基于集体理性而且就博弈论理性是非常直观的，一旦支付占优被定义于博弈论理性，那么在有唯一支付占优的协调博弈中，就可以立即得到理性参与人会选择帕累托效率均衡的结论。与此不同，如果没有明显的选择机制，那么Harsanyi and Selten的依赖于参与人集体理性的方法就很困难了，而非均衡的支付是至关重要的。

[8]状态P是随机稳定的，如果从长期来看，随着突变率趋于零，系统几乎一定处于状态P的某一邻域即处理状态P的概率1，这是一个统计意义上的概念。

[9] Young(1990)首次研究了连续状态下有随机因素影响的系统稳定性，提出了随机稳定状态这一基本概念。在文中他通过维纳过程来描述各种随机影响因素，并加在基于群体分布的模仿者动态之上。

[10] 一般条件下，对称协调博弈中的常返状态是存在的，也就是严格纳什均衡（见Young1993）。本文中由于仅仅考虑对称协调博弈，所以常返状态是由严格纳什均衡组成。

[11] 假定突变率是不变的，因而阻抗完全是由博弈支付决定的。

[12] 他是假定动态过程、突变及不变突变率，在此基础从吸引域开始进行研究。

对称协调博弈

爱华网本文地址 » http://www.413yy.cn/a/9101032201/348771.html

反协调博弈对称协调博弈随机稳定性研究文献综述

更多阅读

传统神经网络算法ART2 神经网络算法

雷帕霉素的功过是非三蒋介石的功过是非

肺结核病人的饮食禁忌肺结核患者能活多久

南航风洞实验室介绍中国风洞实验室排名

第四小学反邪教工作总结小学反邪教工作总结

声明:《反协调博弈对称协调博弈随机稳定性研究文献综述》为网友杀夢分享！如侵犯到您的合法权益请联系我们删除

更多阅读

传统神经网络算法ART2 神经网络算法

雷帕霉素的功过是非三 蒋介石的功过是非

肺结核病人的饮食禁忌 肺结核患者能活多久

南航风洞实验室介绍 中国风洞实验室排名

第四小学反邪教工作总结 小学反邪教工作总结

声明:《反协调博弈 对称协调博弈随机稳定性研究文献综述》为网友杀夢分享！如侵犯到您的合法权益请联系我们删除

雷帕霉素的功过是非三蒋介石的功过是非

肺结核病人的饮食禁忌肺结核患者能活多久

南航风洞实验室介绍中国风洞实验室排名

第四小学反邪教工作总结小学反邪教工作总结

声明:《反协调博弈对称协调博弈随机稳定性研究文献综述》为网友杀夢分享！如侵犯到您的合法权益请联系我们删除