专栏名称：老彭闲谈: 作者：老彭; 简介：为了不同的梦想，我们漂洋过海来到这片土地，我们能在这儿扎下根吗？我们能融入，或者，真的需要融入本地的社会文化吗？我们的身份认同在哪里？老彭进入了奥克兰大学，想通过学习西方的人文和社会科学来为自己寻找一个答案。在完成了本科的历史和哲学之后，老彭正在继续学习人类学和社会学，并且希望能将学到的一点拙见与各位读者分享。

中美贸易摩擦：一场囚徒困境博弈

发布时间：2018-03-26 15:09:33

分享到：

有学生问孔子，“昨天老川骂我，说我偷他家东西了，跟他生意老是耍滑头，害他损失600块钱，要我交税给他。我就主动给他赔礼道歉，说那我就交点税吧，减轻一下你的损失。咋样，夫子，小生以德报怨，算得上是个君子了吧？”

孔子一个大嘴巴扇过去，“你脑子秀逗了？安？你不是打算以德报怨吗？那老师现在打你一巴掌，然后让你借600块钱钱给我去潇洒快活，你丫肯借吗？”

吐了口恶气，孔子揉了揉手腕，慢条斯理地曰，“问心无愧的情况下，咱们要做一个会耍流氓的君子，要以德报德，以直报怨，懂吗？”

这是啥意思呢？且听老彭从博弈论和生物哲学的角度来讲一讲这个话题。

有个叫做 Douglas Richard Hofstadter的教授，我们叫他霍教授吧，写了一篇很好看的文章，叫做 The Prisoner’s Dilemma Computer Tournaments and The Evolution of Cooperation (从囚徒困境计算机博弈大赛看种群合作的进化)。

先普及一下什么叫囚徒困境吧，你们中间学过博弈论的童鞋肯定知道，但是老彭先显摆显摆给那些没听说过的童鞋听一听。

假如小明和小军一起犯罪并不幸被警察叔叔擒获了，关在拘留室里。警长是我的MBA童鞋，想了个损招，把你俩分别单独关在两个隔离的房间里。然后他皮笑肉不笑的先进来跟小明谈，“小明啊，看在我和老彭同学一场，卖你个便宜。你先认罪吧，如果你认了罪并作为污点证人指证小军，我就保你无罪释放。”还有这好事？他又奸笑一下, “如果你不招, 而小军招了, 你就要被判五年刑监。再假如，你俩都讲义气死咬着不招，嘿嘿…” 这声嘿嘿听得小明头皮发麻，“我们已经掌握了现场的指纹和脚印，这些足够判你们每人两年。” 他接着诱导，“还有啊，如果你俩都分别招了，因为证据确凿，对不起哈，但是看老彭面子，轻点，判你俩每人四年。你考虑一下，半小时后我回来等你答复啊。” 只见这警长出了小明的房间，转身就进了小军的房间，也重复了一遍。

小明，小军，你俩想想，然后写个条递给我，写清楚你俩各自的决策，招还是不招。

小明是学工科的，逻辑思维steel steel’s （钢钢的）。他画了一张表：

其中左边的数字代表小明的坐牢年数, 右边的代表小军的。因为坐牢是倒霉事，所以用负数表示，负得越多越倒霉。

小明开始分析，小军有两种选择，招和不招。

首先假设小军招了：

如果我不招，我要被关五年（-5，0）；

如果我也招了，那就我俩都被关四年（-4，-4）。

所以如果小军招了，我也只有招了才有利。

其次，如果小军不招：

我要不招我俩就都被关二年（-2，-2）；

我要招了，嘿嘿，我就无罪释放（0，-2），那我肯定招喽。

所以，不管小军招与不招，我肯定是招了才能最大程度减刑啊…

小明毫不犹豫的写了一个“招”字在纸上，折起来，瞄了一眼小军，按耐住嘴角的奸笑，走上前去，递给了老彭。

那小军主修商科的，也不傻，稍微一思量也得出了同样的结果，鬼鬼祟祟地也把纸条交给老彭。

看着他俩这猥琐的样子，老彭会心一笑，想起了当年在博弈课上大家各自心怀鬼胎的熊样。在一看两张纸条，不出我所料啊！嘿嘿，老彭猥琐地奸笑起来。小明和小军一愣，马上明白对方都叛变了，也跟着老彭嘿嘿直乐。

看明白了吗？各位童鞋，这就是博弈论里著名的囚徒困境，你们有没有发现他俩会各自被判几年啊？结果是，两人都认罪，各判四年（-4，-4）。好像是比最差的五年要好一丢丢哦？但是如果他俩都不懂博弈，傻得冒泡的死咬不招，反而每人只会获罪两年（-2，-2）。所以，你们说他俩是傻呢还是奸呢？所以这个游戏的真正名称叫囚徒困境悖论！两人都是理性人，但反而得出了还不如傻子的结果，悲哀啊，悲哀。

其实，刚才小明和小军玩的是一个单次不重复博弈。他俩都不用考虑以后的后果，就这一锤子买卖，都想尽快脱罪，反正以后撕破脸了也不会有再相处的可能了。所以都会用理性思维去争取在这次不重复的博弈中获得他们自己的最大利益，而且都会选择最佳决策—不合作。

但是，你们想过没有，如果博弈游戏一直持续下去，而且玩家谁也不知道玩多少回合，一直多次连续博弈，直到我老彭突然叫停，然后统计玩家各自的收益，玩家会如何决策呢？他们还会只顾自己的短期利益，选择最自私的决策，把自己的利益建立在别人的损失之上，而不顾要靠互信合作才能获取的、对彼此都有利的长期利益吗？尤其是在不知道这个游戏周期会持续多久的情况下？

在霍教授的文章里，他介绍了一个这样的多次连续重复博弈计算机大赛。1979 年在美国密歇根大学举行了一个比赛，组织者Robert Axelrod 教授，我们叫他阿教授好了, 邀请了十四位精于博弈论的教授来一场囚徒困境博弈大赛。每个参赛者被要求设计一个博弈策略的电脑程序，然后分组捉对厮杀，记录每个人的最后分数。在程序中，每个人可以选择C(合作)或者D(不合作)，来回应对手的合作或不合作策略，而且可以记住跟这个对手跟自己交锋的所有历史策略。积分规则也很简单：如果你出C, 对手出D，对手得1分，你零分；如果双方都出C, 各得0.5分；如果双方都出D, 都不得分。阿教授规定，每个程序都要与其余的每个程序交锋二百个回合。

在这个十四个送来的参赛程序之外，阿教授自己也加了一个程序，叫做RANDOM，就是不管对手出C或D，自己一直完全随机地采取C或者D策略。

大赛结果令人惊奇，一个只有两行语句的程序击败了众多设计多达六、七十行语句的程序，获得了冠军。

这个程序叫做TIT FOR TAT（以牙还牙）：

第一步一定出C（选择合作）；

之后一直重复对手在上一回合的策略。

这种看似无奇的策略，却获得了极高的分数。

小军，你是学商科的，最会算计，你说说，为什么TIT FOR TAT会在长期连续重复博弈中获得高分？

这个么，小军挠挠后脑勺，估计是因为这种以诚待人的市场策略建立了市场美誉度，这样就会与很多客户形成长期合作的双赢机制吧？

仅仅如此吗？老彭继续考问。

小军想了一下，摇摇头，还没想清楚。

那如果你偶尔耍一下小聪明，跟人玩一下心眼儿，会怎样呢？老彭提醒。

那别人肯定会记住你喽，谁也不是傻子，小军毫不犹豫的回答。

好，在这次比赛中就有这么一个程序，就是这么玩的，是一个叫Johann Joss设计的。他的策略跟 TIT FOR TAT 非常相似, 但是他会有十分之一的几率耍一次诈，就是选择不合作。

下面我们看一下这两个程序的对阵情况：

一开始双方都出C(合作), 但是JOSS会有十分之一的机会不合作，以便独吞这一次的分数。于是，他耍赖后，双方的合作就被打断，陷入僵局。双方这么僵持一会儿以后，由于JOSS的十分之一耍赖几率再次出现，双方的交易就变成了完全互不信任，完全不合作的状态。

由于JOSS策略的这种侥幸心理，就是看着平常老老实实做生意，冷不丁偷空占你一次便宜，一次还没啥大关系，再次就被别人记住了，用小军的话说，谁傻啊？随着JOSS信用的瓦解，愿意跟他合作的程序越来越少，JOSS获得的分数也就越来越少。

至于阿教授所创造的RANDOM 策略, 由于其完全是随机策略。由于对手无法琢磨他的态度，所有干脆就都把他看成了一个非常不值得合作的对象，因此他的积分一直是最低。

那么TIT FOR TAT 为什么高居首位呢？

表面上看起来, TIT FOR TAT与别人对阵时，每一回合顶多是不吃亏，绝不会比他的对手更好。

但是，TIT FOR TAT 赢在：

决不首先耍诈。 
及时回馈善意，哪怕是之前他欺骗过你，也不要因为旧怨而拒绝他，因为拒绝就是双输。
别人耍诈时，要毫不犹豫的立即反击。
坚持原则，让别人明确知道你的策略是“以牙还牙”，从而不敢轻易冒犯你。

根据比赛过程，阿教授用电脑设计了一个程序，模拟了一个封闭生态环境并考察中个体如何生存和进化的实验。

在这个封闭生态环境中，有一群原始的有机生命体，分别采取不同的博弈策略，即有两种选择：合作和不合作。经过一轮竞赛后，得分多的个体可以在下一轮中可以用较多的份数参赛。这个“较多份数”设计的意义是模拟演化繁殖过程中，适应环境者可以产生更多的后代。

在这个生态模拟游戏经过上千轮博弈过程后，阿教授发现了一些有趣的现象：

在前两百轮中，有一些采取主动耍诈攻击性策略的个体取得了相当大的优势，繁殖的群体也越来越来大。

而那些软弱策略的个体基本上在这前两百轮中，就成为那些攻击性个体的牺牲品，并为其壮大创造了条件。

但是随着这些软弱个体的消亡，除了攻击性个体，剩下的大量个体种基本都是采取类似TIT FOR TAT这种策略的个体。

这样，攻击性个体就越来越占不到便宜，反而随着愿意跟他合作的个体越来越少，在一千五百轮之后，这些凶恶的个体种群终于彻底灭绝，被淘汰出局。

剩余的基本都是采取TIT FOR TAT的个体种群。

在实验过程中，阿教授还发现即使是在一片凶恶的生态环境中，只要有一小群愿意彼此合作的生物, 他们就都能存活下去。如果他们再具有 TIT FOR TAT 的这种坚决的策略，就可以在进化过程中逐渐积累并慢慢取得上风地位，大量繁衍下去。而一旦采取合作性策略的种群取得优势，就不再可能被采用不合作攻击性策略的群体取代。

好，现在我考你们一下，整个博弈和模拟生态实验的让你们想起什么？老彭摇摇折扇，喝口茶，翘起二郎腿，得得瑟瑟的抖了起来。

小红，你来说。

老师，我认为，博弈过程实际上就是我们的人生过程。我们的一生都在跟人打交道，也就是在跟人博弈，这个博弈不是指我们在与人争斗，而是指我们在与别人一个互动的过程。如何能在这个长期重复博弈过程中慢慢积累高分，选择正确的策略非常重要。简单说，就是不要沾小便宜，但是也不要傻的毫无戒心，对别人的善意要及时回报。对吗？老师。

不错啊，小红，很好！

这边小军又不甘寂寞的举手，发表意见，

还有，要有做人的原则，并让别人明白你的底线。没有原则的，就像那个ROMDOM程序，谁都不带他玩儿。

好好好！老彭夸道。

那么，最后，请小明童鞋回答一下问题：如果要是你，你怎么答复老川啊？

“切，我傻啊？要是确实是我错了，我给他道歉，陪他损失。但是如果他要是无理取闹，那我也不客气了！”小明憨声憨气地撇撇嘴。

呵呵，老彭拈拈自己稀稀拉拉的几绺胡须。

但是，要注意分寸哦，如果双方谁要是不想打了，表现出善意，另一个一定要马上选择谈判合作哦，毕竟双赢是最佳的长期策略嘛！

扫码关注“老彭闲谈”，

第一时间接收最新文章！