上一篇博客我们看了一个决策树分类的例子,但是我们没有深入决策树分类的内部原理。

这节我们讨论的决策树分类的所有特征的特征值都是离散的,明白了离散特征值如何分类的原理,连续值的也不难理解。

决策树分类的核心在于确定那一个特征的那一个特征值分类最有效,可能不同的场景,每个人采用的衡量方法也不一样,这里我们采用香农熵。

下面我们看一下简单的例子

五个样例,两个特征(是否浮上水面,是否有鳍),判断该动物是否是水生(类别)

大数据培训,云培训,数据挖掘培训,云计算培训,高端软件开发培训,项目经理培训

def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']    return dataSet, labels

网友评论