- 非负性:不存在负信息量的事件。
- 单调性:单个事件概率越大,信息量越小。
- 累加性:各独立事件的信息量等于各事件信息量之和。
Information(x)=logp(x)1=−logp(x)
p(x)表示某一事件X其子情况x发生的概率。p(x)越大,信息量越小。
Entropy(X)=−x∈X∑p(x)⋅logp(x)
X指某一事件,x遍历了其所有子情况,p(x)指某一子情况发生的概率。该值表达了事件X的不确定性,熵越大,不确定性越大。
信息熵亦是度量样本纯度地指标,该值越小,样本纯度越高,即样本中尽可能属于同一类别。
交叉熵:CrossEntropy(p,q)=x∑p(x)⋅logq(x)1
该式用于度量两个概率分布间的差异性信息。
Entropy(Y⇐X)=Entropy(Y ∣ X)=x∈X∑p(x)⋅Entropy(Y ∣ X=x)=−x∈X∑p(x)y∈Y∑p(y ∣ x)⋅logp(y ∣ x)
已知事件X的情况下求事件Y的不确定性。
Gain(D,a)=Entropy(D)−Entropy(D ∣ a)=Entropy(D)−v=1∑a.V∣D∣∣Dv∣Entropy(Dv)
- D:数据集
- a:某一离散属性
- a.V:属性可取的值数量
- Dv包含了D中所有属性a上取值为av的样本。
信息增益越大,即使用该属性进行划分时,对纯度的提升越大。信息增益准则对可取值数目较多的属性有所偏好。
GainRatio(D,a)=IV(a)Gain(D,a)
- IV:属性的固有值(Intrinsic Value)
IV(a)=−v=1∑a.V∣D∣∣Dv∣log∣D∣∣Dv∣
增益率准则对可取值数目较少的属性有所偏好。
编号 |
色泽 |
根蒂 |
敲声 |
纹理 |
脐部 |
触感 |
好瓜 |
1 |
青绿 |
蜷缩 |
浊响 |
清晰 |
凹陷 |
硬滑 |
是 |
2 |
乌黑 |
蜷缩 |
沉闷 |
清晰 |
凹陷 |
硬滑 |
是 |
3 |
乌黑 |
蜷缩 |
浊响 |
清晰 |
凹陷 |
硬滑 |
是 |
4 |
青绿 |
蜷缩 |
沉闷 |
清晰 |
凹陷 |
硬滑 |
是 |
5 |
浅白 |
蜷缩 |
浊响 |
清晰 |
凹陷 |
硬滑 |
是 |
6 |
青绿 |
稍蜷 |
浊响 |
清晰 |
稍凹 |
软粘 |
是 |
7 |
乌黑 |
稍蜷 |
浊响 |
稍糊 |
稍凹 |
软粘 |
是 |
8 |
乌黑 |
稍蜷 |
浊响 |
清晰 |
稍凹 |
硬滑 |
是 |
9 |
乌黑 |
稍蜷 |
沉闷 |
稍糊 |
稍凹 |
硬滑 |
否 |
10 |
青绿 |
硬挺 |
清脆 |
清晰 |
平坦 |
软粘 |
否 |
11 |
浅白 |
硬挺 |
清脆 |
模糊 |
平坦 |
硬滑 |
否 |
12 |
浅白 |
蜷缩 |
浊响 |
模糊 |
平坦 |
软粘 |
否 |
13 |
青绿 |
稍蜷 |
浊响 |
稍糊 |
凹陷 |
硬滑 |
否 |
14 |
浅白 |
稍蜷 |
沉闷 |
稍糊 |
凹陷 |
硬滑 |
否 |
15 |
乌黑 |
稍蜷 |
浊响 |
清晰 |
稍凹 |
软粘 |
否 |
16 |
浅白 |
蜷缩 |
浊响 |
模糊 |
平坦 |
硬滑 |
否 |
17 |
青绿 |
蜷缩 |
沉闷 |
稍糊 |
稍凹 |
硬滑 |
否 |
- Entropy(D)=−(178log178+179log179)=0.998
计算Gain(D,色泽)
色泽 |
数量 |
好瓜 |
坏瓜 |
青绿 |
6 |
3 |
3 |
乌黑 |
6 |
4 |
2 |
浅白 |
5 |
1 |
4 |
- Entropy(色泽=青绿)=−(63log63+63log63)=1
- Entropy(色泽=乌黑)=−(64log64+62log62)=0.918
- Entropy(色泽=浅白)=−(51log51+54log54)=0.722
Gain(D,色泽)=Entropy(D)−v=1∑3∣D∣∣Dv∣Entropy(Dv)=0.998−(176×1+176×0.918175×0.722)=0.109
Gini(D)=k=1∑nk′=k∑pkpk′=1−k=1∑npk2
基尼值反映了从数据集中随机抽取两个样本,其类别标记不一致的概率(不纯性的度量)。基尼值越小,数据集纯度越高。
GiniIndex(D,a)=v=1∑a.V∣D∣∣Dv∣Gini(Dv)
选择基尼指数最小的属性作为最优划分属性。
Day |
Outlook |
Temperature |
Humidity |
Wind |
Decision |
1 |
Sunny |
Hot |
High |
Weak |
No |
2 |
Sunny |
Hot |
High |
Strong |
No |
3 |
Overcast |
Hot |
High |
Weak |
Yes |
4 |
Rain |
Mild |
High |
Weak |
Yes |
5 |
Rain |
Cool |
Normal |
Weak |
Yes |
6 |
Rain |
Cool |
Normal |
Strong |
No |
7 |
Overcast |
Cool |
Normal |
Strong |
Yes |
8 |
Sunny |
Mild |
High |
Weak |
No |
9 |
Sunny |
Cool |
Normal |
Weak |
Yes |
10 |
Rain |
Mild |
Normal |
Weak |
Yes |
11 |
Sunny |
Mild |
Normal |
Strong |
Yes |
12 |
Overcast |
Mild |
High |
Strong |
Yes |
13 |
Overcast |
Hot |
Normal |
Weak |
Yes |
14 |
Rain |
Mild |
High |
Strong |
No |
计算GiniIndex(Outlook)
Outlook |
Number |
Yes |
No |
Sunny |
5 |
2 |
3 |
Overcast |
4 |
4 |
0 |
Rain |
5 |
3 |
2 |
- Gini(Outlook=Sunny)=1−(52)2−(53)2=0.48
- Gini(Outlook=OverCast)=1−(44)2−(40)2=0
- Gini(Outlook=Rain)=1−(53)2−(52)2=0.48
GiniIndex(Outlook)=145Gini(Outlook=Sunny)+144Gini(Outlook=OverCast)+145Gini(Outlook=Rain)=3512≈0.343
每次划分选取信息增益最高的属性为划分标准。
先从候选属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
优先选择基尼指数小的属性。
避免过拟合的主要手段
- 预剪枝:减少训练测试时间,但有欠拟合风险。
- 后剪枝:泛化性能一般优于预剪枝,但训练开销大。