2.1 原理介绍_人工智能算法大全：基于MATLAB-QQ阅读女生青春网

上QQ阅读APP看书，第一时间看更新

2.1 原理介绍

Chi-Merge是监督的、自底向上的（即基于合并的）数据离散化方法。它依赖于卡方分析：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则。

2.1.1 算法思想

Chi-Merge算法的基本思想可以概括为对于数据的离散化，相对类频率在一个区间内应当完全一致。如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。

所以在把数据离散化时，对每一个特征分别执行，刚开始对特征值排序，每个样本点是一个区间，随后通过计算每两个相邻区间的卡方值，来把卡方值小的两个区间合并，直到满足最后的条件。对于终止条件，可以选择卡方值的阈值，也可以选择区间的个数。若选择以阈值作为终止条件，对于大于阈值的两个区间不再合并，所以阈值越大，合并区间的次数越多，离散后的区间数量少，区间大。若选择区间个数作为终止条件，则满足区间个数时停止。本文中代码采用的是选择区间个数，即离散后离散值的个数作为终止条件。但是这个区间个数只是一个期望的个数，根据每个特征的计算结果不同，具体离散值的个数可能会有小的变动。