上一篇博客我们看了一个决策树分类的例子,但是我们没有深入决策树分类的内部原理。

这节我们讨论的决策树分类的所有特征的特征值都是离散的,明白了离散特征值如何分类的原理,连续值的也不难理解。

决策树分类的核心在于确定那一个特征的那一个特征值分类最有效,可能不同的场景,每个人采用的衡量方法也不一样,这里我们采用香农熵。

下面我们看一下简单的例子

五个样例,两个特征(是否浮上水面,是否有鳍),判断该动物是否是水生(类别)

大数据培训,云培训,数据挖掘培训,云计算培训,高端软件开发培训,项目经理培训

def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']    return dataSet, labels

延伸阅读

学习是年轻人改变自己的最好方式-Java培训,做最负责任的教育,学习改变命运,软件学习,再就业,大学生如何就业,帮大学生找到好工作,lphotoshop培训,电脑培训,电脑维修培训,移动软件开发培训,网站设计培训,网站建设培训学习是年轻人改变自己的最好方式