戈比硬币 甲藏起一枚 10 或 20 戈比的硬币,乙猜对则得到硬币,猜错则给甲 15 戈比。双方最优策略是什么?

这就是一道博弈论的题目。

如果按照题目的描述,我们可能会画出这样一棵博弈树(也被称为博弈的拓展形式extended form)
从上往下,首先由甲选择藏起来的硬币是10还是20,再由乙猜测硬币,最后的收益,前一个是甲的收益,后一个是乙的收益。从上往下,首先由甲选择藏起来的硬币是10还是20,再由乙猜测硬币,最后的收益,前一个是甲的收益,后一个是乙的收益。
但是这棵树是有问题的:乙在决策的时候,其实不知道甲到底藏的是10还是20,所以其实正确的博弈树是这样的:
连上虚线的两个点,表示连上虚线的两个点,表示在同一信息集中(掌握了同样多的信息),这时候,我们可以把它等价地画成支付矩阵(也被称为博弈的标准形式或战略形式strategic form)
拓展形式的博弈树,通常用于表示博弈策略选择有前后顺序的情况(我们称为sequential game),而战略形式的支付矩阵,则表示博弈策略选择是同时进行的情况(我们称为simultaneous game)。在这个问题中,由于乙猜测时不知道甲藏的硬币是多少,可以认为乙是在甲藏硬币的同时进行猜测,因而可以写成战略形式的支付矩阵。拓展形式的博弈树,通常用于表示博弈策略选择有前后顺序的情况(我们称为sequential game),而战略形式的支付矩阵,则表示博弈策略选择是同时进行的情况(我们称为simultaneous game)。在这个问题中,由于乙猜测时不知道甲藏的硬币是多少,可以认为乙是在甲藏硬币的同时进行猜测,因而可以写成战略形式的支付矩阵。

接下来我们来求解这个博弈的解,这里就是它的纳什均衡。
纳什均衡的定义是,在均衡下,参与者不会单方面地改变自己的选择。
首先考察纯策略纳什均衡(双方都只用一种策略),由于格子少, 所以我们可以逐格按照定义进行检查,当然也可以用经典的划线法:给定甲的策略,选出乙的最佳选择,再给定乙的策略,选出甲的最佳选择,如下图:
我们可以说,这时候不存在纯策略纳什均衡,任何一种结果下,都会有一方觉得自己本应有更好的选择。我们可以说,这时候不存在纯策略纳什均衡,任何一种结果下,都会有一方觉得自己本应有更好的选择。
我们转而寻求混合策略纳什均衡,就是双方混合采取多种策略。
混合策略纳什均衡的求解办法,如题主所做的那种是可以的,但这比较复杂,我们通常采用的是利用对手无差异性。
对手无差异性的含义是,如果甲要混合选择10和20,那乙无论选择10还是选择20,得到的收益应该是一样的。否则,如果甲选择混合策略之后,乙发现自己选择10的收益更高,那么甲应当预见到这一点,并转而选择20,这说明甲有更好的策略;反之乙如果发现选择20的收益更高也是同理。
这样一来,我们假定甲以p的概率选择10,1-p的概率选择20,那么由对手无差异性
10p-15(1-p)=-15p+20(1-p)
25p-15=20-35p
解得p=35/60=7/12
同理可得乙以q=7/12的概率选择10,5/12的概率选择20。计算结果和题主是一样的~

以上解答了题主提到的Vladimir Arnold提出的问题。

接下来解答题主的问题。
1. 此解法有一个假设,即『在游戏开始后策略不改变』。在该假设下,此解法是否正确?答:并不需要这个假设,因为原题说的是甲乙双方进行一次游戏的情况,尽管这其中涉及概率,但不代表这个游戏要进行很多次来统计频率,而是参与人每一轮都根据概率进行选择。

题主想说的,其实是游戏进行多轮的状况,这种状况被称为重复博弈(repeated game)。

重复博弈下,策略就更像是一种战略,而不是战术,它代表了玩家在每一轮如何选择的一整套规则,这个规则可以是“根据上一回合的结果决定下一回合的选择”,也可以是“在游戏开始后策略不改变”。
我用最经典的囚徒困境博弈来做个说明。
囚徒困境进行一轮的时候,囚犯的策略是合作(C)或者背叛(D);
囚徒困境重复进行时,囚徒的策略可以是永远合作ALLC,永远背叛ALLD,以牙还牙Tit For Tat,冷酷策略Grim Trigger等等,这些策略是单轮博弈的策略(合作或者背叛)的有机组合。这里“永远合作”或者“永远背叛”就是“在游戏开始后策略不改变”的策略的例子,而“以牙还牙”和“冷酷策略”都是“根据上一回合的结果决定下一回合的选择”的例子。

2. 是否有一种『根据上一回合的结果决定下一回合的选择』的策略,使得甲或者乙收益更多?如果有,是什么?如果没有,如何证明?
答:这时候我们就要进一步划分重复博弈。
1)如果重复博弈进行有限轮,在最后一轮,双方一定会选择纳什均衡。
如果有多个纳什均衡,而且各个纳什均衡的收益不同,那么可以通过威胁对方说,我会在最后一轮强制选择较差的纳什均衡,来逼迫对方在最后一轮之前选择非纳什均衡。
然而,这道题中只有一个纳什均衡(就是混合策略纳什均衡),因此最后一轮双方无论如何都只有这一种选择,倒推到倒数第二轮,则双方都无法威胁对方,那么倒数第二轮也只能都选择纳什均衡,依此类推,我们就得到了一个定理:
定理:若单轮博弈只有唯一纳什均衡,则有限重复博弈中每一轮博弈双方均选择该纳什均衡。
这个定理用在囚徒困境上,就可以知道有限次囚徒困境中,双方都永远会选择背叛。

2)如果重复博弈进行无限轮,这时候就没有“最后一轮”了,我们就不能从最后一轮来进行倒推了。这时候,我们就只好利用另一个定理(证明略),即无名氏定理(Folk Theorem)。
在介绍定理之前,先来了解一下折现率(discount rate)的概念。简单地说,就是没到手的钱没有已经到手的钱值钱,在今天看未来的收益,要打个折扣。这个也很好理解,比如我今天给你100块和明年的今天给你100块,肯定是今天拿到手合算,因为我可以拿去投资啊,最起码可以多拿一年的利息,所以明年的100块钱,在今天就要少一些,我们用折现率δ<1来表示,今天这明年的100块钱就只值100δ。
如果我们进行无限轮博弈,最后我们会得到一个总折现收益,这个总折现收益等价于每年固定拿一定量的钱的总折现收益,我们称为平均折现收益。比如说,如果我今年拿2块,从明年开始每年拿1块,折现率是1/2,那么我的总折现收益是
2+1/2+(1/2)^2+...=3
平均折现收益假设是x,那么有
x+x*(1/2)+x*(1/2)^2+...=3
解得x=3/2
也就是说,“我今年拿2块,从明年开始每年拿1块,折现率是1/2”,就相当于我每年拿3/2块,折现率是1/2。

好了,我们回到无名氏定理。无名氏定理说的是,对于双方高于其最小最大值(minimax)的收益,在折现率充分高的情况下,存在策略,使得双方的平均折现收益达到该值。
在零和博弈中(比如本题),最小最大值的收益就是纳什均衡下的收益。而零和游戏意味着提升一方的收益必然降低另一方收益,所以无法用无名氏定理证明存在这样的策略。(= =!一个大写的懵逼)
(然而证明不存在的定理我们没学过……)
3. 此题让我联想到Evolutionarily Stable Strategy(虽然只有两个人),现实中(如生物、经济等领域)是否有符合此题模型的现象?我还是想说这个问题本身只是一轮,不是多轮……所以本身并没有Evolutionary的成分……不过如果放在演化博弈的视角下,这确实是一个ESS。
符合此题模型的现象……暂时想不出来……   1/2    1 2 下一页 尾页

爱华网本文地址 » http://www.413yy.cn/a/81440103/5390.html

更多阅读

史上今天 印度一枚捆绑式火箭发射失败 印度火箭 发射 直播

印度在航天领域取得许多成就,成为世界上继美国、俄罗斯、欧盟、中国和日本之后的第六个航天大国。印度斯哈里科塔发射场印度一枚捆绑式火箭发射失败1988年7月13日,印度一枚捆绑式运载火箭从斯哈里科塔发射场第二次发射卫星时,在火

一枚袁大头——民间异术后人的传奇经历 一枚袁大头第五部

一枚袁大头——民间异术后人的传奇经历 作者:飞行电熨斗分类:悬疑探险一桩六十年前的离奇事件,兵痞马三炮在临死之际留下枚假的袁大头,隐隐指向一处秘密的宝藏。  有人寻找那枚袁大头,有人想找宝藏,而还有人却在找寻着袁大头和宝藏后的

一枚袁大头 一枚袁大头第三部龟兹

九十年代初不经意间收藏了一枚袁大头,当时这枚袁大头觉得好玩又是第一次见就把它保存下来了。再后来听人说袁大头存世不多,才知道它的珍贵。这个品相还行,现在存世的究竟还有多少?名词解释

声明:《戈比硬币 甲藏起一枚 10 或 20 戈比的硬币,乙猜对则得到硬币,猜错则给甲 15 戈比。双方最优策略是什么?》为网友不合群分享!如侵犯到您的合法权益请联系我们删除