有仇必报的名言(有恩必还,有仇必报是小人的表现么)
“有恩必还,有仇必报”这是一种为人处世的方法,这也是生活中一种很有效的博弈策略。这点用博弈的思想来看,显得更加明了。
在博弈论中,我们可以得到很多有趣而富于哲理的启示,一报还一报策略就是其中之一。它那种善意、宽容、强硬、简单明了的合作策略无论对个人还是对组织的行为方式来说,都有十分重要的指导意义。
人们通过接受及回报.形成了社会生活的秩序。这种秩序即使在最无指望的环境中,例如相互隔绝、语言不通的人群之间也是最易理解的东西。哥伦布登上美洲大陆时.与印第安人最初的交往就开始于互赠礼物。有些看似纯粹的利他行为,比如无偿馈赠,也通过某些间接方式,比如社会声誉的获得,得到了回报。研究这种行为,对我们理解社会生活有很重要的意义。
由国务院研究室中国言实出版社出版发行的《互联网时代方法论丛书》第一卷《互联网时代的世界观·关系宇宙》一书就科学地论证了博弈的最佳策略是“一报还一报”。
什么是“一报还一报”策略?
即“人不犯我,我不犯人,人若犯我,我必犯人”。
《论语宪问》中有这样一句话:“或曰:‘以德报怨,何如?’子曰:'何以报德?以直报怨,以德报德。’”概意是:一个学生问孔子:别人打我了,我用道德和教养感悟他,好不好?孔子就说,你以德报怨,那“何以报德?”别人以德来待你的时候,你才需要以德来回报别人。可是现在别人打了你,你就应该“以直抱怨”。无论是“以直报怨”、“以德报德”还是“以德报怨”,里面其实蕴涵了一个被现代话语所阐释的著名理论:博弈论。当然,直接用“博弈论”来表述会显得不够严谨,论语中的这句话其实是蕴含了一种博弈逻辑:一报还一报。
“一报还一报”字面上的理解是至少存在两次先后的互动,也就是至少存在两次博弈行动,然而,要把“一报还一报”阐释清楚,还需先从单次博弈开始,在此之前,推荐大家一本与本期主题相关的书籍《合作的进化》
一、单次博弈:囚徒困境
囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,抵赖的话判十年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,比起抵赖的判十年,坦白还是比抵赖的好。结果,两个嫌疑犯都选择坦白,各判刑八年。
但如果两人都抵赖,各判一年,显然这个结果好。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。
这个案例呈现的是单次博弈的基础上所出现的结果,假定的是两个囚徒均充分理性(经济学意义上的追求个体利益最大化),且双方未能够实现沟通互动,交流信息,如果双方能够互相传递信息,那理论上来讲最优的结果是:两人都抵赖,各判一年。当然,这种结果是排出了博弈双方不存在狡诈现象。那如果出现狡诈显现怎么会出现呢?有什么样的方法可以规避这种“出卖”策略呢?
这就需要讲到“重复博弈”了。
二、重复博弈:一报还一报,合作的进化
一报还一报策略的提出,应归功于美国密西根大学的学者罗伯特·爱克斯罗德。他是一个政治科学家,研究方向是人与人之间的合作关系。在开始研究合作之前,爱克斯罗德设定了两个前提:一,每个人都是自私的;二,没有权威干预个人决策。也就是说,个人可以完全按照自己利益最大化的目标进行决策。在此前提下,要研究的问题是:第一,人为什么要合作;第二,人什么时候是合作的,什么时候又是不合作的;第三,如何使别人与你合作。
在研究的过程中,爱克斯罗德组织了一场计算机模拟竞赛。思路非常简单:任何参加这个竞赛的人都扮演囚徒困境案例中一个囚犯的角色,把自己的策略编成计算机程序,进行捉对博弈,在合作与背叛之间做出选择。但与囚徒困境案例有个不同之处:他们不止玩一次这个游戏,而是以单循环赛的方式玩上200次。这就是博弈论专家所谓的“重复的囚徒困境”,它更逼真地反映了具有经常而长期性的人际关系。
这个游戏还允许程序在做出合作或背叛的抉择时,参考对手程序前几次的选择。如果两个程序只玩过一个回合,则背叛显然就是唯一理性的选择。但如果两个程序已经交手过多次,则双方就建立了各自的历史档案,用以记录与对手的交往情况。同时,它们也通过多次的交手树立了或好或差的声誉。
虽然如此,下一步将会如何行动却仍然极难确定。实际上,这也是该竞赛的组织者爱克斯罗德希望从这个竞赛中了解的事情之一:一个程序能够总是不管对手做何种举动都采取合作的态度吗?或者,它能总是采取背叛行动吗,它是否应该对对手的举动报之以更为复杂的举动?如果是,那会是怎么样的举动呢?
第一轮游戏有14个程序参加,其中包含了各种复杂的策略。再加上爱克斯罗德自己的一个随机程序(即以50%的概率选取合作或背叛)。使爱克斯罗德和其他人深为吃惊的是,竞赛的桂冠属于一个被称为“一报还一报(TIT FOR TAT)”的策略,它是由多伦多大学的数学教授阿纳托·拉波波特提交上来的。有意思的是,在科学家们上交的14个程序中有8个是“善意的”,但正是这些永远不会首先背叛的善意程序,轻易地赢了6个非善意的程序。
因为参与竞赛的程序为数不多,一报还一报策略的胜利也许只是一种侥幸。为了进一步验证上述结论,爱克斯罗德决定举行第二轮竞赛,邀请更多的人再做一次游戏,并把第一次的结果公开发表。这一次有62位科学家递交了改进的程序,其中包括多个以上一次的策略为基础的改良品种。加上爱克斯罗德自己的随机程序,63个程序又进行了一次竞赛。竞赛结果表明,在63个程序的前15名里,只有第8名的哈灵顿程序是“非善意的”;在最后15名中,只有1个总是合作的程序是“善意的”。而且,夺魁的仍然是一报还一报策略。
这种让几十位科学家的智慧相形见绌的神奇策略到底是怎样的呢?
说起来很简单,简单到有些不可思议: “ 一报还一报 ” 的策略是——第一步合作,此后每一步都重复对方上一步的行动(合作或背叛)。合作或背叛。如此简单的程序之所以反复获胜,是因为它奉行了以其人之道还治其人之身的原则,并且用如下特征最有效地鼓励其他程序同它长期合作:善良、可激怒、宽容、简单、不妒忌别人的成功。
善良,是指它第一步总是向对方表达善意。它坚持永远不首先背叛对方,开始总是选择合作,而不是一开始就选择背叛或主动作弊。
可激怒,是指对方出现背叛行动时,它能够及时识别并一定要采取背叛的行动来报复。不会让背叛者逍遥法外。
宽容,是指它不会因为别人一次背叛。长时间怀恨在心或者没完没了地报复,而是在对方改过自新、重新回到合作轨道时,能既往不咎地恢复合作。
简单,是指它的逻辑清晰,易于识别,能让对方在很短时间内辨识出来其策略所在。
不妒忌,是指它不耍小聪明,不占对方便宜,不在任何双边关系中争强好胜。
其他各种策略输就输在上述五个方面做得不够好。在比赛结果中,所有恶意程序(第一步背叛)都未进前10名;而某些程序太过好脾气。被对方背叛之后不立即反应,结果鼓励那些狡猾的程序反复占它的便宜;某些程序对于过往关系的“好坏”太过执著,一旦被别人欺骗就很难宽容,结果使得很多本来可能恢复的合作关系永久性断绝;还有一些程序把自己搞得太复杂,总是试图通过某种机巧来占人便宜,尽管在与某些“傻”程序接触中得了高分,但一旦碰到个性“刚烈”的程序就会搬起石头砸了自己的脚。而从最后的总分来看,它们的小聪明得不偿失。
TIT FOR TAT 是在 “ 重复的囚徒困境 ” 模型中取得的胜利,而这种模式可以很逼真的反映出具有经常而长期性的人际关系问题,具有相当的参考价值。