博弈论,对策论、游戏论,
博弈论又名对策论、游戏论~是一门研究互动关系“游戏”的参与者各自选择策略的科学~博弈论把这些复杂关系理论化~以便分析其中的逻辑和规律~并对实际决策提供指导和借鉴。 游戏三要素(博弈的规则、结构):
1、博弈、游戏参加者。
典当管理办法博弈论分析~假定参与者都是机智而理性的。
2、行为和策略空间。
博弈参与者必须知道他自己及其对手伙伴的策略选择范围~并了解各种策略之间的因果关系。
博弈论用数字表示这类结果~并称之为支付。
支付矩阵
可以用支付矩阵,得益矩阵、收益矩阵、赢得矩阵,来描述一个博弈结构。
厂商B
左 右
,生产~涨价、做广告, ,不生产、降价、不做广告,
上 1~2 0~1 ,生产~涨价、做广告, 厂商A 下 2~1 1~0 ,不生产、降价、不做广告,
支配策略:
由于游戏参与者试图实现自身利益最大化并具有理性的决策能力~加上信息方面的假定~所以上述支付矩阵表示的博弈具有一个简单而确定的结果。从厂商A角度来说~它采取策略“下”而得到的支付总是好于“上”,2,1分别对1,0,。同样~对于厂商B来说~选择策略“左”得
到的利益总是优于“右”,1,2分别对0,1,。因此~我们可以确定预期均衡选择策略是A选择“下”而B选择“左”的策略。
囚徒困境:
下面支付矩阵表示著名的“囚徒困境”游戏~从博弈论角度看~这是一个存在支配均衡的博弈,因为对囚犯A、B来说~无论对方如何选择~“坦白”都是各自的最优选择。
虽然从两名囚犯共同利益看~最好的选择是合作~即同时选择保持沉默~然而~由于猜忌~试图获得更大好处(3个月刑期)等竞争性动机阻碍了他们达到更好的互利选择~他们面临“囚徒困境”。我们将看到~寡头垄断厂商经常面临类似的困境。
囚犯B
坦白 沉默
坦白 5年~5年 3个月~10年
囚犯A
沉默 10年~3个月 1年~1年
西溪海小海
纳什均衡:
支配均衡是一个特例~并非每个博弈都存在支配均衡。下面修改的支配均衡表示博弈中~厂商A、B在选择做广告问题上存在的策略关系。其中厂商A没有支配策略~因为A的最佳决策取决于B的选择。例如~当B选择做广告时~A应当选择做广告~由此得到10而不是6的支付得益~然而~当B选择不做广告时~A应当选择不做广告~从而得到20而不是15的支付得益。假定两个厂商需要同时决策~A应当如何决策,
厂商B
左 右
,做广告, ,不做广告,
上 10~5 15~0 ,做广告, 厂商A 下 6~8 20~2 ,不做广告,
解答这个问题~A需要把自己放在B的位臵~从B的角度看什么是最好的选择~并在此基础
上考虑自己的选择。支付矩阵表明B有一个支配策略:不论A选择如何~B选择做广告时利益较大,5~8对0~2,~因而A可以判断B会选择做广告~而在B做广告时~A应当选择做广告~因而。均衡结果是双方都做广告。
上述均衡结果被称作纳什均衡。
纳什均衡指给定一组对手行为前提下~各博弈方存在的最佳选择,在纳什均衡状态下~只要其他参与者不变换策略选择~任何单个参与者不可能单方面通过变换策略来提高它的所获支付。美国数学家和统计学家纳什,Nash,50年代提出的折椅概念~所以称作纳什均衡。
纳什均衡和支配策略均衡的区别是:在纳什均衡下~“我,你,所做的是给定你,我,的选择我,你,所能做的最好的”。而支配均衡下~“我,你,所做的是不论你,我,的选择~我,你,所能做的更好的”。支配均衡必然是纳什均衡~纳什均衡未必是支配均衡。
一个博弈可能有好几个纳什均衡,即几组稳定并且自我坚持的策略,~有时又可能不存在纳什均衡~下面左表存在两个纳什均衡~右表则没有纳什均衡。 richtextbox
B B
左 右 左 右
上 上 2~1 0~0 0~0 0~-1
闰年 墨西哥版A A
下 下 0~0 1~2 1~0 -1~3
重复博弈:
上面讨论的“囚徒困境”暗含所几个假定是静态所一次性的博弈~结果陷入了个体理性决策导致集体非理性结果的困境。现在我们改变条件~讨论博弈可以多次进行的重复博弈,Repeated Game,,这时~囚犯同时选择沉默有可能成为纳什均衡。
因为重复性博弈中~选择坦白的机会成本太高~可能成为不利的选择。例如:A有机会对B组成策略联盟~并对B宣布如下方针:我将选择沉默~并要求你也如此来增进各自利益,然而~如果你半途背叛选择坦白~我从下一阶段游戏开始一直选择坦白~这一方针跟A利益一致~因而是可信的。从B角度来看~如和A合作~可能每阶段得到1年监禁的较好结果,如中
途变卦~固然当期可得3个月的更好结果~但此后便每次面临5年监禁的结果~显然是不利的。因而重复博弈中~“沉默”,“沉默”点可能成为双方的最佳选择~因而成为纳什均衡。——由于博弈条件由一次性变为重复性~均衡状态随之发生变化。
序列博弈
前面讨论的博弈是参与者同时选择。
枭之城在序列博弈,Sequential Game,中~各博弈方先后依次行动。
下面的支付矩阵描述了一个博弈~如果同时行动~它有两个纳什均衡,“甜~咸”或“咸~甜”,。假定A 可以先推出甜饼干,假如较快投入生产,~就有了序列博弈:A先作决策~B随后选择。A决策是必须考虑竞争
厂商B
马萨诸塞紧急状态左 右
,咸饼干, ,甜饼干,
上 ,5~,5 10~20 ,咸饼干, 厂商A 下 20~10 ,5~,5 ,甜饼干,
者的理性反应,A知道不论自己推出哪种饼干~B处于自身利益会推出另一种,因而A推出甜饼干~B在给定A决策时选择咸饼干,给定B的选择~A的选择仍然最佳。结果两个纳什均衡点收敛为一个,下~左,。其中A由于具有先行者优势,First Mover’s Advantege,而得到较大利益。
中国电信、中国联通的价格竞争模型:
A,中国电信,是老牌企业~实力雄厚~占据了绝大多数的市场份额,
B,中国联通,刚成立不久~翅膀没有长硬~是政府为打破垄断鼓励竞争而筹建的~B得到了政府的一些优惠~其中就有B的价格可以比A低10,。这一举动~还不会对A产生多大的影响~因为A的根基实在是太牢固了。在这样的市场分配下~A、B可以达到平衡~但由于B在价格方面的优势~市场份额逐步壮大~到了一定程度~对A造成了影响。这时候~A该怎么办,