"爸爸,熊猫为什么是3个不是11个"
"宝贝,你还没学二进制好吗....."
以上故事纯属虚构,真实的对话其实是这样的
"爸爸, 为什么3比4小"
"宝贝,数一下就知道啦。你看猪猪有1,2,3. 3个, 小鸟有1,2,3,4. 4个. 你看小鸟是不是比猪猪多? 所以3比4小"
为什么我们要用十进制? 我们当然明白十进制是为了把世界描述为在数学上大家统一使用的语言然后进行沟通, 如果你用十进制我用二进制,那没法沟通了是不?
决策树用多了, 习惯了用信息增益作为特征选择的指标, 而信息增益是由前熵后熵差值而来.
为什么用熵? 对不起,这个问题请问科学家,你用就是了
为什么说熵比较高就是比较混乱? 接下来我们算一算验证一下.
首先来个简单粗暴的:
给三个球分类, 显然一眼就可以看出把红球独自一组,黑球一组. 那么具体分类的信息增益怎样呢?

在Excel里算前熵
E(三个球) = - 1/3 * log(1/3, 2) - 2/3 * log(2/3,2) = 0.918
第一种分法是红黑球一组,黑球自己一组. 在红黑一组中有红球和黑球, 红黑球各自出现的概率是1/2. 在另一组只有 100%出现黑球, 红球的概率是0
所以 E(红黑|黑) = E(红黑) + E(黑) = - 1/2 * log( 1/2, 2) - 1/2 * log (1/2, 2) - 1 * log( 1, 2) = 1

第二种分法就是红球自己一组了, 在红球组中出现黑球的概率是0, 在黑球组中出现红球的概率是0, 这样的分类已经"纯"了. 还是可以计算熵:
E(红|黑黑) = E(红) + E(黑黑) = - 1 * log( 1, 2) - 1 * log( 1, 2) = 0

那么,
红黑混合的信息增益 G(红黑|黑) = E(三个球) - E(红黑|黑) = 0.918 - 1 = -0.02
红黑分


