碳规划:低碳扩散中政府补贴及监管策略的优化
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 理论基础

博弈论理论是研究相互依赖的行为个体间的决策和均衡问题的重要理论方法和工具,为揭示个体行为和集体行动乃至经济社会运行规律提供了分析框架(范如国等,2006)。就低碳扩散中的政府补贴及监管而言,其策略的选择不仅会受到自身决策的影响,还会受到其他主体(包括企业和消费者)决策的影响,且在不同主体决策的相互影响作用下,最终达到某种均衡状态。本书主要借助演化博弈理论、复杂网络理论、复杂网络演化博弈理论和信号传递博弈理论来分析低碳扩散中各主体之间的相互博弈行为及其演化规律。下面对这几种理论作简要介绍。

2.2.1 演化博弈理论

现代博弈论起源于数学家Von Neumann和经济学家Morgenstern 1974年合著的Thetheory of games and economic behavior。自此,学者们对博弈论展开了深入研究,尤其在纳什将策略均衡概念创造性地引入非合作博弈后,博弈论逐渐成为重要且有用的分析工具。自1994年诺贝尔经济学奖颁发给3位博弈论专家Harsanyi、Nash和Selten后,至今有7次诺贝尔经济学奖与博弈论有关,如2012年获奖的Roth和Sharply、2014年获奖的Tirole等,博弈论已经成为主流经济学的核心内容。

随着学者对博弈论研究的不断深入,其隐藏的潜在问题逐渐暴露,博弈论对人们理性和行为能力完全性的基本假设便是其中之一。基于理性局限性,人们对传统博弈论的预测作用产生怀疑,演化博弈论便在发展传统博弈论完全理性假设过程中逐渐产生和发展起来。

演化博弈论来源于生物进化论(谢识予,2010)。20世纪70年代是演化博弈论发展的关键时期,Smith和Price(1973)将生物演化论与传统博弈理论相结合,提出了演化博弈的基本均衡概念——演化稳定策略(evolutionary stable strategy,ESS),这一概念的提出标志着演化博弈理论的诞生。此后,1978年Taylor和Jonker在考察生态演化现象时,提出演化博弈理论的基本动态概念——复制者动态。自此,演化博弈理论的研究和应用迅速发展起来。

在应用演化博弈理论分析实际问题时,需要依托一些基本假设,这些假设是建立演化博弈模型的前提,其中假设博弈方有限理性是演化博弈理论的基本假设。有限理性是指具有诸多限制的理性,在应用演化博弈理论建模时,有限理性表现为参与博弈各方在每一轮博弈中的策略选择过程。

演化博弈模型的建立基于选择和突变两个方面(郑月龙,2017),选择时体现“优胜劣汰”的思想,即支付较高的策略会被选择,最终会存活下来;突变时体现“随机选择”思想,即博弈个体以低级方式选择不同于群体的策略,突变是另一种形式的选择。在应用模型分析群体的动态演化过程中,群体中的博弈个体的策略调整、改进和选择应体现有限理性。

演化博弈理论基于有限理性的假设条件,通过动态分析(如复制动态方程),进而研究系统最终达到均衡状态的过程,且通过“演化稳定均衡”这一概念,对博弈参与群体的行为进行预测。根据Smith等(1973)提出的演化博弈理论基本分析过程可知,该理论主要包含随机配对博弈、动态演化方程和演化稳定策略三个核心概念。

(1)随机配对博弈。假设一个群体中有无限个参与者,首先在群体内或群体间随机选择两个参与者进行配对博弈,再按照参与者所选策略的相应支付函数计算博弈收益。

(2)动态演化方程。动态演化方程通常用复制动态方程描述(Taylor et al.,1978),用于解释某一策略在群体中被采用的变化趋势,复制动态方程式为

其中,xit)表示群体中采取纯策略si的比例,是纯策略的适应度utsi)与平均适应度之差的严格增函数。

(3)演化稳定策略。演化稳定策略是指在长时间的寻优和淘汰过程中,群体中的策略将最终稳定在某一均衡状态,即使存在某一变异策略的扰动,该状态仍然能够保持策略稳定。

假设总体中的变异者占总体的比例为ε,且ε∈(0,1),这些变异者有可能选择原有策略s∈Δ,也有可选择变异策略s∈Δ。从存在两种不同的策略总体中随机抽取成对的人进行博弈,且每人抽中的概率相等。因此,被抽中参加博弈的人,其对手采用变异策略s的概率为ε,对手采取现有策略的概率为1-ε。此时,策略收益与采取混合策略w=εs+(1-εs∈Δ的博弈方匹配带来的收益是相同的。因此,现有策略进入后的收益为usw),变异策略进入后的收益为usw)。生物学经验告诉我们,演化力量不会选择变异策略,当且仅当变异策略进入后的收益低于现有策略的收益,满足u[s,(1-εsεs]>u[s,(1-εsεs],则称策略s∈Δ是演化稳定策略。当变异者占总体的比例足够小时,这个不等式对任何变异策略ss都是成立的。即

定义2.1 如果对任何策略ss,存在某个使得不等式u[s,(1-εsεs]>u[s,(1-εsεs]对所有的都成立,那么s∈Δ是一个演化稳定策略(ESS)(Smith et al.,1973)。

令ΔESS⊂Δ表示所研究的博弈的演化稳定策略集合,容易验证,每个ESS对其自身来说一定是最优的。如果策略s对其自身不是最优的,那么必然针对s乃至某个个体得到更高收益的策略s。因此,如果变异策略s在总体中的比例ε足够小,那么根据u的连续性,s针对总体混合w=εs+(1-εs得到的收益比s得到的收益高。因此,s不是演化稳定的,即ΔESS⊂ΔNE。但是演化稳定性的要求更为严格。如果s是演化稳定的,且s是针对s的另一个最优反应,那么s必然是针对ss更好的反应(威布尔,2006)。

值得注意的是,演化稳定策略可能是纯策略,也可能是混合策略。在囚徒困境博弈中,社会最优具有内在的不稳定性,它要求两个博弈方都采取严格劣策略;有时即使社会最优是一个严格纳什均衡,演化稳定性也有可能得到社会低效率。

就本书的研究内容而言,低碳扩散中政府补贴及监管策略选择是各主体(政府、企业、消费者)之间博弈和相互作用的结果。因此,基于演化博弈理论来研究低碳扩散中的政府补贴和政府补贴监管问题,可有效地分析各主体间的博弈互动关系,并基于演化视角来分析各主体的行为选择以及系统最终的稳定状态,以期为低碳扩散中政府补贴策略和补贴监管策略的制定提供可操作性解决思路。

2.2.2 复杂网络理论

在现实社会中,社会环境以及社会本身不断变化,相应的社会系统并不固定于某一特定结构,系统中各个节点及其之间的关系不断地发展变化,从而构成了复杂网络。复杂网络是呈现高度复杂性的网络,其复杂性主要体现在以下几个方面:①结构复杂性,表现在节点数目巨大,网络结构呈现多种特征。②网络进化,表现在节点或连接的产生与消失。③连接多样性,指节点之间的连接权重存在差异,且有可能存在方向性。④动力学复杂性,表现在节点集可能属于非线性动力学系统,如节点状态随时间发生复杂变化。⑤节点多样性,指复杂网络中的节点可以代表任何事物。⑥多重复杂性融合,指以上多重复杂性相互影响,导致更难以预料的结果。复杂网络的基本特征为:①网络行为的统计性。网络节点数很多,进而使得大规模的网络行为具有统计特性。②节点动力学行为的复杂性。各个节点本身可以是各非线性系统具有分岔和混沌等非线性动力学行为。③网络连接的稀疏性。一个N个节点的具有全局耦合结构的网络的连接数目为ON2),而实际大型网络的连接数目通常为ON)。④连接结构的复杂性,网络连接结构既不是完全规则的,也不是完全随机的。⑤网络的时空演化复杂性,复杂网络具有空间和时间的演化复杂性,表现为复杂行为的多样性。这五种特征反映了实际网络的复杂性特征,既具有混沌分形和自组织演化的特征,也具有形成序参量的特征(徐绪松,2010)。

复杂网络的统计参数主要包括平均路径长度、聚类系数和度分布。下面对三个参数作简要介绍。

(1)平均路径长度,表示任意两个节点之间距离的平均值,也称网络的特征路径长度。

其中,N表示网络中节点具体数目;dij表示节点i和节点j最短路径的边数。尽管实际中复杂网络节点数很多,但是网络的平均路径却很小。平均路径决定了系统的顺畅程度,该参数越小,到达目标位置的时间越短,失真性越小。

(2)聚类系数,表示节点iki个邻居节点之间实际存在的边Ei和可能的总边数kiki-1)/2的比值,即

网络的聚类系数Ci是所有节点的聚类系数的平均值,聚类系数反映了系统中某一节点的邻居节点之间的连接程度。聚集系数越高,表示系统的稳定性越高。

(3)度分布。节点i的度为与该节点连接的其他节点的数目。网络中节点度的分布情况可以用网络中度数为k的顶点的个数占顶点总个数的比例来描述。度表示各个节点与周围节点之间的关系,即有多少个节点给这一节点输入资源或能量,这一节点又可以给哪些节点输出资源,度决定了整个系统中所有节点之间的关系。在系统不断演化时,分析节点的度分布,可以把握系统内部各个元素之间关系的变化。

经典的复杂网络模型有小世界网络模型和无标度网络模型两种。Watts等(1998)提出了一个兼具小世界性和高聚集性的网络模型,即WS模型,该模型的提出是复杂网络研究的重大突破。随后,很多学者在WS模型的基础上做了改进,如Newman等提出的NW小世界网络模型(Newman et al.,1999)。Barabá等(1999)认为用幂律分布来描述现实中的大多数大规模真实网络的度分布更加准确,并将这种网络称为无标度网络。这种网络类型的大多数节点仅有少量连接,而少数节点拥有大量连接。自此,国内外学者将网络与其研究问题相结合来开展研究。通常将其所研究问题置入网络结构中,通过分析网络结构的特性进而发现所研究问题的规律和内在机制。

WS小世界网络模型具有聚集系数高、平均路径短的特点。因此,WS小世界网络的连通性更好、信息传播速度更快。

2.2.3 复杂网络演化博弈理论

随着网络科学的发展,复杂网络演化博弈理论应运而生。该理论将复杂网络理论与演化博弈理论相结合,以分析参与人以局域互动关联的方式进行博弈的演化稳定结果。最早的复杂网络演化博弈研究始于Nowak与May(1992)在规则网络上的囚徒困境博弈。该理论主要包含以下三个核心概念(Szabó et al.,2007)。

(1)博弈类型。博弈类型是指参与者之间存在的博弈结构,不同博弈结构下参与人的决策地位和决策收益并不相同。常用的博弈类型主要有囚徒困境博弈、雪堆博弈、智猪博弈等。

(2)博弈的网络结构。博弈的网络结构是指参与者之间通过局域互联所涌现的宏观结构,不同博弈网络结构的属性及其扩散机制并不相同。常用的网络结构有规则网络、小世界网络和无标度网络等。

(3)策略的学习规则。策略的学习规则是指参与人通过学习或试错进行策略调整、更新,进而获得更好的收益或更高的适应性。常用的策略学习规则为费米规则。费米规则是基于物理学中的费米函数提出的(Szabó et al.,1998),该规则以参与人是有限理性为出发点,通过在策略学习规则中引入环境噪声来描述其对策略选择行为的影响。其公式为

其中,K表示环境噪声,其值的大小反映了各主体在策略学习过程中环境的不确定性。

可见,复杂网络演化博弈理论能够更加系统地描述网络结构上的策略演化规律和动力学机制。结合本书的研究内容,低碳扩散中政府补贴和政府补贴监管的对象为企业,企业拥有自己的关系网络或邻域,尤其在互联网快速发展的今天,企业之间的联系更紧密。对于实施低碳策略的企业而言,在自身利润最大化的前提下,企业并不是固定地选择某一策略申报低碳补贴,而是根据距离其较近企业(或邻居)的收益调整自身的行为和决策。因此,由企业组成的网络结构既有一定的规律可循,又存在随机性,故不能用传统的规则网络或随机网络来解释企业之间的关系。因为复杂网络中的小世界网络同时兼具随机性和规则性特征,能恰当地反映企业之间的关系特征,故本书运用复杂网络演化博弈理论来研究低碳扩散中的政府监管策略问题。

2.2.4 信号传递博弈理论

信号传递博弈是指有两个参与人(信号发送者和信号接收者)进行的不完全信息动态博弈(Spence, 1974)。其博弈过程如下。

第一阶段:参与人1的类型空间为Θ={θ1θ2,…,θN},那么参与人2不知道属于参与人1的类型空间θ;对于参与人2而言,其仅知道θ是参与人1所选类型的“先验概率”(prior probability),该概率为p=pθ),且∑npθn=1。

第二阶段:参与人1的行动。当参与人1搜寻到类型θ之后,发出信号,记信号空间为M={m1m2,…,mS}。

第三阶段:参与人2的行动。当参与人2发现信号m后,将会得到“后验概率”(posterior probability),且该概率为。此外,后验概率是基于先验概率p=pθ),运用贝叶斯法则(Bayesian rule)计算得到。根据该概率,参与人2进行行动选择,记其行动空间为A={a1a2,…,aS}。

第四阶段:计算支付函数。参与人1和参与人2的支付函数分别为u1maθ)和u2maθ)。精炼贝叶斯均衡是信号传递博弈的基本概念,可以划分为分离均衡、混同均衡和准分离均衡三类。下面对三种均衡形式进行简要介绍。

2.2.4.1 分离均衡(Seperating Equilibrium)(张维迎,1996)

分离均衡是指假定仅有两种类型(θ1θ2)的信号发送者,且发送2个信号m1m2,那么两种类型的信号发送者将会以100%的概率选择m1或者m2。假定类型θ1的最优选择是m1,那么类型θ2的最优选择就是m2,即u1[m1am),θ1]>u1[m2am),θ1],u2[m2am),θ2]>u2[m1am),θ2]。因此,后验概率是

2.2.4.2 混同均衡(Pooling Equilibrium)(张维迎,1996)

混同均衡是指不同类型的发送者选择相同的信号。接收者不修正先验概率,假定mj是均衡策略,则

u1[mja(m),θ1]≥u1[ma(m),θ1];

u2[mja(m],θ2)≥ u2[m1a(m),θ2];

2.2.4.3 准分离均衡(Semi-separating Equilibrium)(张维迎,1996)

准分离均衡是假定参与人1(类型θ1的发送者)随机地选择m1或者m2作为信号发送,对于参与人2(类型θ2的发送者)而言,其以100%的概率选择类型m2。将该策略组合设为均衡策略组合,则

u1[mja(m),θ1]=u1[m2a(m),θ1];

u2[m1a(m),θ2]<u2[m2a(m),θ2];

可见,信号传递博弈是研究具有信息传递特征的信号机制的一种不完全信息动态博弈模型(范如国等,2006)。参与人1先以一定的概率分布从信号类型空间中向参与人2发出信号,然后参与人2在其行为空间中选择某一特定行为,并向参与人1发出信号,最后参与人2根据参与人1的行为选择其行为。在政府低碳补贴监管策略选择的过程中,企业是信号发送者,由于企业实施低碳策略的效果存在差异,故不同实施效果的企业实施低碳策略的成本也不相同;如果实施效果差的企业发出与实施效果好的企业同样的信号,以伪装其特征,此时信号机制会失效。因此,为了提高政府补贴的分配效率,需要对低碳补贴进行监管。本书将使用信号传递博弈中的精炼贝叶斯均衡理论对政府低碳补贴监管的最优边界条件进行分析。