基本概念
静态博弈:所有局中人同时行动;后者局中人的行动有先后顺序,但是,后行动者不能观测到先行动者的行动。 动态博弈:局中人的行动有先后顺序,后行动者可以观测到先行动者的行动。
云梦县教育局
静态博弈的表示:局中人集合;局中人的决策集;局中人的支付(收益)函数。
动态博弈的表示(博弈的扩展式表达)
1、局中人集合;(其中包括虚拟局中人“自然”)
2、局中人的行动顺序:谁在什么时候行动;
3、局中人的行动空间(决策集):在每次行动时,局中人的可供选择的决策; 4、局中人的信息集:在每次行动时,局中人所知道的以前博弈过程的信息;
5、局中人的支付函数:每次行动时,局中人的所得(它是所有行动的函数);
6、外生事件(“自然”的选择)的概率分布。
博弈树:
多人有限策略的扩展式可以用博弈树表示
例:有房产商A和B各可以开发一栋楼,开发成本为1亿。若市场有两栋楼,当市场需求大时,每栋楼售价为1.4亿;当市场需求小时,每栋楼售价为7千万。若市场只有一栋楼,当市场需求大时,售价为1.8亿;当市场需求小时,每栋楼售价为1.1亿。房产商的决策选择为开发或不开发。这样,共有下列8种可能结果: 1、需求大,A开发,B不开发,则A的利润为0.8亿,B的利润为0;
2、需求大,A不开发,B开发,则A的利润为0,B的利润为0.8亿;
3、需求大,A开发,B开发,则A的利润为0.4亿,B的利润为0.4亿;
4、需求大,A不开发,B不开发,则A的利润为0,B的利润为0;
5、需求小,A开发,B不开发,则A的利润为0.1亿,B的利润为0;
6、需求小,A不开发,B开发,则A的利润为0,B的利润为0.1亿;
7、需求小,A开发,B开发,则A的利润为-0.3亿,B的利润为-0.3亿;
8、需求小,A不开发,B不开发,则A的利润为0,B的利润为0;
假设行动顺序为房产商A先行动,然后“自然”选择需求量(假设需求大或小的概率同为0.5)。房产商B观察到房产商A行动和“自然”选择后,再选择行动。则该动态博弈的博弈树如下:
博弈树的几个基本概念:
结:决策结和终点结。通常用在决策结的旁边标注局中人的方式来表示局中人行动顺序。
枝:决策结到它的直接后续结的连线。一个分枝表示局中人的一个选择。
信息集:按局中人对决策结是否了解,而将博弈树上的所有决策结分成不同的信息集。例如,前述房产商开发的博弈树中的7个决策结划分为7个信息集。
如果房产商B无法观察到“自然”选择就需要0采取行动,则B的信息集由4个减少为2个。如下图
完美信息:后行动方了解此前的全部博弈过程,即他完全了解其他局中人的此前的所有行动。
完全信息:博弈各方了解其他局中人的收益函数。
瑞意恒动
完美且完全信息动态博弈
在动态博弈中,局中人的策略虽是局中人事先设定的,但是,这并没有强制执行的限制。因此,局中人完全可以在博弈过程中改变决策。这种情况称为“相机选择”。
相机选择问题导致了“可信性”问题。即博弈各方是否会真正始终按自己预先选定的策略行动。
动态博弈可以转化为静态博弈求解,即可以得到与静态博弈相同的纳什均衡概念。然而,可信性问题的存在使得人们对纳什均衡在动态博弈中的有效性产生了怀疑。因此,需要为动态博弈改进纳什均衡的概念。
例:在“自然:已选择了低需求,且它已是局中人的共同知识的条件下,考虑房产商开发问题。其博弈树如下:
天语w680
由于A先行动,故他有两个可选择的行动:开发或不开发。B在A之后行动,他有四个可选择的行动:开发;A开发则B开发,A不开发则B不开发;A不开发则B开发,A开发则B不开发;不开发。简记为{开发,开发},{开发,不开发},{不开发,开发},{不开发,不开发}。
由此可得收益矩阵如下
| {开发,开发} | {开发,不开发} | {不开发,开发} | {不开发,不开发} |
开发 | -3,-3 | -3,-3 | 埃舍尔矛盾空间1,0 | 1,0 |
不开发 | 0,1 | 0,0 | 0,1 | 0,0 |
外国文学评论 | | | | |
容易看出,该博弈有三个纳什均衡点:1:{开发,{不开发,开发}},2:{开发,{不开发,不开发}},3:{不开发,{开发,开发}}。
对于纳什均衡点3,成为均衡点是因为B威胁不论A是否开发,他都要开发。若A相信这个威胁,则A的最优选择是不开发。因此,当B假定A将选择不开发,此时,开发是他的最优选择。故{不开发,{开发,开发}}是纳什均衡点。
但是,A凭什么要相信这个威胁呢?毕竟,若A选择开发时,B选择开发的支付是-3,选择不开发的支付是0。此时B的最优选择是不开发。
因此,若A认为B是理性的,则A将选择开发,逼B选择不开发。这样,该均衡点是不可信的(不合理的)。
对于纳什均衡点2,虽然其结果是A开发,B不开发是合理的。但是,该均衡策略本身是不合理的。因为,若A选择开发,B的最优选择是不开发;但是,若A选择不开发,则B的最优选择是开发。因此,B的决策{不开发,不开发}本身就是不合理的。即是一个不可信的策略。
第一个对纳什均衡的最重要改进是泽尔腾的“子博弈精练纳什均衡”。这一概念的主要思想是在纳什均衡点中,排除掉存在可信性问题的纳什均衡点。
子博弈:在一个动态博弈中,从某一阶段(不能是第一阶段)开始的后续阶段构成的,拥有初始信息集和进行博弈的全部信息,能够自己进行博弈的原博弈的一部分称为原博弈的一个子博弈。
定义:在动态博弈中,若一个策略组合是该博弈的纳什均衡,并且它对该博弈的每个子博弈都给出了纳什均衡,则称这个策略组合为子博弈精练纳什均衡。
下面以房产商开发为例子解释子博弈精练纳什均衡的概念。
该博弈及其子博弈如下图:
对于子博弈(b),B的最优选择是不开发;对于子博弈(c),B的最优选择是开发。
因此,对于纳什均衡点3,它在子博弈(c)上构成纳什均衡,但在子博弈(b)上不构成
张震寰纳什均衡;而纳什均衡点2在子博弈(c)上不构成纳什均衡,在子博弈(b)上构成纳什均衡;只有纳什均衡点1,在子博弈(c)和(b)上都构成纳什均衡。
对于有限完全且完美动态博弈,可以用逆向递归方法求其子博弈精练纳什均衡点。该算法的基本思想是先从最后的决策点开始,寻在该点决策的局中人的最优选择,再倒会到倒数第二个决策点,寻第二个决策者的最优决策,如此等等。
例如,在房产商开发中,在第二阶段,若A选择开发,则B的最优选择是不开发;若A选择不开发,则B的最优选择是开发。即B的最优策略是{不开发,开发}。回到第一阶段,由于A预计到B会按上述规则行动,按照这一规则,A在第一阶段的最优选择是开发,因此子博弈精练均衡点是{开发,{不开发,开发}}。