深度学习:从基础到实践(全2册)
上QQ阅读APP看书,第一时间看更新

2.9 Anscombe四重奏

本章的统计数据告诉了我们关于数据的很多信息,但并不意味着统计数据告诉了我们一切。

有一个我们被统计数据愚弄的著名例子:有4个不同的二维数据集合,它们看起来一点都不像,但都有相同的均值、方差、相关系数和拟合直线。这些数据以发明这4个数据集的数学家命名([Anscombe73]),称为Anscombe四重奏(Anscombe’s quartet)——它们的值可以在网上很轻松地获得([Wikipedia17a])。

图2.31展示了这4个数据集以及它们的最佳拟合直线。

图2.31 Anscombe四重奏中的4个数据集以及它们的最佳拟合直线

这4个数据集的惊人之处在于每个数据集中x值的均值均为9.0,y值的均值均为7.5,每组x值的标准差均为3.16,每组y值的标准差均为1.94。每个数据集中xy之间的相关系数均为0.82,而每个数据集的最佳拟合直线在y轴的截距均为3,斜率均为0.5。

换句话说,4个数据集的7个统计度量都具有相同的值。实际上,如果我们在这4幅图上延伸出更多数据,有的统计度量值就会产生不同,但是它们依然非常接近,所以几乎可以认为它们是一样的。

图2.32叠加了4个数据集中的所有点以及它们的最佳拟合直线。因为4条最佳拟合直线是一样的,所以我们在图中只能看到1条。

图2.32 Anscombe四重奏的4个数据集以及其最佳拟合直线的叠加

Anscombe四重奏的寓意是:不要认为统计数据透露了关于任何一组数据的全部情况。得到了一组数据的统计信息是一个很好的起点,但是统计数据不能告诉我们需要知道的一切。要想很好地利用数据,我们还需要仔细观察并且深入理解它。

这4个数据集虽然有名,但并不特别。如果我们想,就可以制作出更多具有相同(或近乎相同)统计数据的不同数据集([Matejka17])。