上一篇博客我们看了一个决策树分类的例子,但是我们没有深入决策树分类的内部原理。
这节我们讨论的决策树分类的所有特征的特征值都是离散的,明白了离散特征值如何分类的原理,连续值的也不难理解。
决策树分类的核心在于确定那一个特征的那一个特征值分类最有效,可能不同的场景,每个人采用的衡量方法也不一样,这里我们采用香农熵。
下面我们看一下简单的例子
五个样例,两个特征(是否浮上水面,是否有鳍),判断该动物是否是水生(类别)
def createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] labels = ['no surfacing','flippers'] return dataSet, labels
延伸阅读
学习是年轻人改变自己的最好方式
