递归终止条件
决策树使用递归实现,而递归终止条件有以下三种:
-
当前结点所有样本属于同类,无需划分
-
当前属性集为空,无法划分,选取此节点中数量更多的标记作为类别标记
-
当前样本集为空,不能划分,依据父节点中数量更多的标记作为类别标记
名词概念
1.纯度:同类聚集程度高、不同类越分散,则纯度越高
2.信息熵:纯度的量化指标,来源于信息论
3.剪枝:防止决策树过拟合,减去部分划分属性。分为预剪枝和后剪枝
信息熵
信息熵计算公式:
$$ E n t ( D ) = - \sum _ { k = 1 } ^ { | y | } p _ { k } \log _ { 2 } p _ { k }$$
信息熵用于衡量信息的不确定性或信息的混乱程度,我们可以将其用于量化纯度
信息熵越大,数据分布越均匀、随机、杂乱无章,明显这不是我们想要的。我们想要的是相同类靠近,不同类远离的效果,即需要越小的信息熵
$p_k$表示选到k类别的概率,而 $-\log _ { 2 } p _ { k }$则表示信息量
1 | 我们可以理解对于某一事件,其发生的概率越小,那么其信息量越大;发生的概率越大,那么其信息量越小。所有对两者求期望即得到信息熵。 |
注意:此处计算公式里的Y的输出值种类,如二分类问题中Y=2

