2.1 绝对误差度量
下面介绍几个常用的绝对误差度量。
2.1.1 均方根误差(RMSE)度量
目前工程中广泛应用的性能评估指标为均方根误差(RMSE)度量,其具体定义为
式中,M为蒙特卡洛实验次数,“i”表示第i次蒙特卡洛实验,记x和分别为待估量和估计量,估计误差,。
均方根误差(RMSE)与标准差之间的关系如下:
标准差(均方差)反映的是估计值与均值的关系,而RMSE反映的是估计值与真实值之间的关系。因此,标准差用来衡量估计器估计结果自身的离散程度,而RMSE用来衡量估计器估计值同真实值之间的偏差;它们的研究对象和研究目的不同,但是计算过程类似。对于标量的无偏估计器来说,RMSE实际上是对估计误差标准差的有限样本近似,而标准差是概率分析中的一个重要参数;因此,RMSE对标量情况下的概率分析有很大意义。
然而,RMSE有着很大的缺陷。首先,它受数值大的估计误差主导,数值小的误差很容易被忽视掉;其次,通过RMSE的定义,RMSE度量在评估估计器时明显偏向于最小方差估计,即,其中Z表示所有的观测集。此外,RMSE没有很好的物理解释。文献[73]提出,应该用平均欧几里得误差(AEE)代替RMSE。
2.1.2 AEE度量
1.AEE的定义和性质
欧几里得误差(AEE)是另一个可供选择的度量,其具体定义为
这一度量有着很好的物理解释:在几何上,是待估量x和估计量在物理空间中真实的算术平均距离;同时,AEE在估计误差为标量且服从高斯分布的情况下,可以转化为RMSE来满足概率分析的需要。让表示估计误差的欧几里得范数(即2范数),、分别表示e的均值和方差,则有
式中,。AEE的期望值可以很好地表征估计误差。由于AEE和分别是估计误差的样本均值和的期望值,所以AEE是的估计,且有着良好的性质[52]:
(1)无论的分布如何,AEE都是的无偏估计;
(2)AEE是的最小二乘估计,即使最小;
(3)AEE是的高斯-马尔科夫估计器,在所有的的线性无偏估计中都使最小;
(4)若是随机的,且先验分布为均匀分布,则AEE是的最小均方误差估计和最大后验估计;
(5)若为指数分布、泊松分布、伯努利分布或(近似)高斯分布,且均值为,则AEE是的最大似然分布和一个最小充分统计量。
2.RMSE和AEE的比较
根据切比雪夫大数定律,随着M→∞, RMSE2和AEE(几乎肯定)分别趋向于标准差E( e2 )和期望值;再根据中心极限定理,随着M→∞, RMSE2和AEE有渐近高斯分布,即。
在受数值大的误差项主导的问题上,AEE较RMSE有很大改善,RMSE和AEE都关注大的误差,它们给出的评估结果均受大的误差主导。比如, 100个误差项中有99个值是1,一个误差值是400,那么AEE给出的评估结果是5,而RMSE给出的评估结果将接近400,即:RMSE受大的误差项主导而几乎完全忽略了另外的99项。所以,RMSE作为一个度量是不公正、不理想的。
RMSE之所以在工程界这么受欢迎,主要原因在于它是标准差(MSE)的有限样本近似,方便概率上的分析,而且计算简单。我们知道,条件均值和中位数分别使MSE矩阵和欧几里得平均距离最小化,因此使用RMSE进行度量明显会偏向条件均值估计器。但是,AEE由于带有绝对值,最小化时操作上的不便使得这一距离很少作为优化准则。基于此,文献[73]推荐:若主要关心估计误差的大小程度,则在进行性能评估时用AEE代替RMSE;因为AEE有一个直接、自然的解释。当需要概率分析时,RMSE通常更方便。
2.1.3 调和平均误差(HAE)度量
HAE是各统计误差倒数的算术平均数的倒数。调和平均数是平均数的一种,由于它是根据变量的倒数计算的,所以又称倒数均值。
HAE的具体定义为
HAE以调和平均数为基础,它与RMSE和AEE相反,由小误差主导,且注重一个估计的性能有多好,倾向于度量“好”的性能;因此,它是一个乐观的衡量指标,适合评估多次蒙特卡洛实验中估计误差波动较大的估计器和军事应用中的Hit-or-miss背景下的估计器。
调和平均数尤其适用于平均比率。调和平均数可以用在距离相同但速度不同时的平均速度的计算。例如一段路程,前半段速度为60 km/h,后半段速度为30 km/h(两段距离相等),则其平均速度为两者的调和平均数40 km/h。另外,假设一个人分别以速度v1、v2和v3从A城驾车至与其距离为L的B城,那么平均速度为
调和平均数有极小极大性质[87]。考虑近似已知区间为[a, b]的误差的问题,其中表示e的一个估计。那么a、b的调和平均数H(a, b)表示最大的可能相对误差的极小值:
2.1.4 几何平均误差(GAE)度量
作为度量,RMSE、AEE、HAE都带有倾向性,因此都不是一个理想的度量。一般情况下,在评估一个估计器的性能时,要得到一个无偏的评估结果,期望任何大的误差都能被一个足够小的误差来中和或者平衡是合理的,即:大的估计误差和小的估计误差地位均等。GAE度量基于几何均值可以满足这一要求,它所受极值的影响比以上几个度量有很大改善,可以表征更公正的性能评估结果。其具体定义为
由于数值问题,最好通过其对数形式进行计算:
若有一项或多项为零,则定义GAE的值为零。
GAE度量是对各误差值的连乘积项开数次方根。求几何平均数的方法叫作几何平均法。当总水平、总成果等于所有阶段、所有环节的水平、成果的连乘积总和时,求各阶段、各环节的一般水平、一般成果,就要使用几何平均法计算几何平均数,而不能使用算术平均法计算算术平均数。
GAE度量的几何意义如图2-1所示。
图2-1 GAE度量的几何意义
算术平均数体现纯粹数字上的关系;而称为几何平均数,它体现了一个几何关系。作一正方形,使其面积等于长和宽分别为a、b的矩形的面积,则该正方形的边长即为a、b的几何平均数。中国古代数学书中提到的矩形面积,往往用长和宽的几何平均数来表示。
2.1.5 RMSE、AEE、HAE和GAE之间的关系
对一个给定的估计误差集合,有HAE≤GAE≤AEE≤RMSE。这一大小关系说明:大的估计误差被RMSE放大得最明显,而小的估计误差则被HAE关注。其中等式仅在所有的误差项相等时成立。另外,有
式中,是对待估量x的估计量。
2.1.6 误差的中位数和众数
给定误差集合,误差的中位数(Median Error, ME)为
在某些情况下,关注的是最可能出现的误差项,即误差的众数(Error Mode, EM)。误差的众数是给定的误差直方图中最高点的位置。