
2.2 数据集的图像筛选原则与性能评测方法
为了保证数据集的性能,需要选择对显著区域提取任务具有一定难度的图像构成数据集。
本节将详细叙述显著性数据集建立时的图像筛选原则及数据集的性能评测方法。
2.2.1 图像筛选原则
目前,已经提出了大量的显著区域提取方法,这些提取方法分别从不同的角度反映出显著区域提取过程中的难点。换一种思维方式,从反方向考虑,如果数据集中的图像具有提取中要解决的难点问题,那么可以认为这样的数据集对显著区域提取工作具有一定的难度。另外,目前的文献在构建数据集时也存在一些问题,有必要对构建中的问题进行改进。以上两点是我们确定图像筛选原则的出发点。
文献[68]中构建了一个包含235幅图像的数据集。数据集中的图像被分为6类:包含大尺寸显著区域的图像、包含中等尺寸显著区域的图像、包含小尺寸显著区域的图像、具有大小不同的多个显著区域的图像、具有杂乱背景的图像、背景区域和显著区域非常相似的图像。然而,文献[68]判断显著区域尺寸的原则相当主观,何等级尺寸的显著区域为大的显著区域?何等级尺寸的显著区域为中的显著区域?何等级尺寸的显著区域为小的显著区域?没有定量的原则可以遵循,不能让人信服。针对此问题,本书采用定量的衡量方法,更加科学合理。
背景先验已经多次用在显著性的计算中。测地显著性[72]是一个代表性的工作,判断的主要依据是图像的边界区域更可能为图像的背景,图像区域离边界较远,则它为显著区域的可能性较大。文献[72]将边界连接度作为先验信息辅助显著区域的提取,算法鲁棒性变得更强。此外,文献[31]提出了背景度(backgroundness)的概念,背景度可以看作对象性(objectness)的对立概念,从相反的角度去度量显著性。然而这些文献的共同问题是当显著区域与图像边界连接时,算法将不再有效。逆向思维,可以认为显著区域连接边界的情况增加了显著区域的提取难度,数据集中增加这样的图像可以认为增加了数据集的显著区域提取难度。这也为确定图像筛选原则提供了思路。
近年来,研究人员开始定量的研究数据库偏差问题,数据集的偏差来源于图像的挑选和标注过程。文献[47]指出中心偏差是最明显的一种偏差。所以在构建数据集的时候,限制具有中心偏差倾向的图像比例,则会减小数据集的中心偏差。
在众多有关显著区域提取的文献中,都把对比度看作计算显著性的关键。当前景区域和背景区域具有明显的颜色差异时,显著区域比较容易检测出来。当前景区域与整幅图像差异较小时,自然增大了显著区域提取的难度。所以在筛选图像时,可以通过设置显著区域和背景区域的对比度阈值来提高数据集的难度。
基于上面的分析,确定了4个筛选图像的原则,具体如下。
1)显著区域占图像的比例
将显著区域占整幅图像的比例划分为10个等级,[0,0.1)、[0.1,0.2)、[0.2,0.3)、[0.3,0.4)、[0.4,0.5)、[0.5,0.6)、[0.6,0.7)、[0.7,0.8)、[0.8,0.9)、[0.9,1]。若显著区域占整幅图像的比例覆盖的等级越多,则认为显著区域的尺寸越丰富。
2)显著区域与图像边界的连接程度
在筛选时,设置数据集与图像边界连接的最小连接比例,保证数据集与边界连接的数量。
3)显著区域与图像的对比度
在筛选时,设置数据集中显著区域与图像对比度的最小值,保证数据集的显著区域提取难度。
4)图像中心区域的显著区域比例
首先,定义图像中心区域的范围。图像的宽度为w,高度为h,中心坐标为(x, y),图像中心区域范围为距离图像中心左、右最大距离为,上、下最大距离为
的矩形区域,如图2-1所示。如果显著区域外接矩形的中心在图像中心区域范围内,则认为此图像具有中心偏差。
数据集中的图像筛选是一个反复迭代的过程,目前还不存在完美和最优的结果,只能人为地控制数据集图像筛选结束的条件。

图2-1 图像的中心区域范围
2.2.2 数据集的性能评测方法
1.数据集的统计
根据图像筛选原则确定数据集后,制定4种针对数据集的统计方法,并通过统计结果评测数据集的性能。
1)统计显著区域占整幅图像比例等级的百分比
一幅图像I及其对应的二值标注图G。二值标注图G中彼此不连通的显著区域个数为M。xi()代表图像I中第i块显著区域。
显著区域的面积占整幅图像的比例划分为10个比例等级,[0,0.1)、[0.1,0.2)、[0.2,0.3)、[0.3,0.4)、[0.4,0.5)、[0.5,0.6)、[0.6,0.7)、[0.7,0.8)、[0.8,0.9)、[0.9,1]。若xi在等级j中,则等级j内显著区域的个数加1,numj=numj+1,。
对数据集中的每一幅图像进行上面的操作,最后计算10个比例等级内的显著区域个数占所有显著区域个数的百分比。
计算过程如下。

2)统计与图像边界相连的显著区域占所有显著区域的比例
一幅图像I及其对应的二值标注图G。二值标注图G中彼此不连通的显著区域个数为M。(
)代表图像I中第i块显著区域,判断xi是否与图像的边界连接,如果连接,则与边界连接的显著区域个数加1,
。
对数据集中的每一幅图像进行上面的操作,最后计算与图像边界相连的显著区域个数占数据集中所有显著区域的比例。
计算过程如下。

3)统计显著区域与整幅图像的颜色差均值
一幅图像I及其对应的二值标注图G。二值标注图G中彼此不连通的显著区域个数为M。xi()代表图像I中第i块显著区域。图像I的颜色特征为
,xi的颜色特征为
,计算
和
的颜色特征差。
对数据集中的每一幅图像进行上面的操作,最后计算显著区域与图像颜色特征差的均值。
计算过程如下。

4)统计位于图像中心区域的显著区域比例
一幅图像I及其对应的二值标注图G。二值标注图G中彼此不连通的显著区域个数为M。xi()代表图像I中第i块显著区域。判断xi的外接矩形中心是否属于图像I的中心区域。如果位于中心区域,则位于中心区域的显著区域个数加1。
对数据集中的每一幅图像进行上面的操作,最后计算位于中心区域的显著区域占所有显著区域的比例。
计算过程如下。

2.数据集的性能分值计算
对一个数据集进行前面的4种统计方法计算后,再计算数据集的性能分值。假设4种统计方法的重要性是一样的,数据集性能分值的计算方法如下:

(2-1)
其中,score代表数据集的性能分值。
数据集的显著区域占整幅图像的比例等级共有10个值,是一个分布,计算这个分布的方差,当分布中各个等级都包含时,方差会较小,反映出显著区域的尺寸比较丰富。
式(2-1)中,代表数据集中与图像边界连接的显著区域比例,比例越大反映提取的难度越大,相应的,
会越小。
表示数据集中显著区域与整幅图像颜色差的均值,
越小,表示显著区域与背景区域的差距越小,显著区域提取的难度会越大。
代表显著区域具有中心先验的比例,比例越小,说明数据集受中心先验偏差的影响越小,难度越大。
对显著性数据集集合中的每个数据集都计算性能分值,根据性能分值得到数据集的性能排序。分值越小说明数据集的性能越好。