前言
最近在看Peter Harrington写的“机器学习实战”,这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集。
基本概念
FP-growth算法
FP-growth算法的性能很好,只需要扫描两次数据集,就能生成频繁项集。但不能用于发现关联规则。
我想应该可以使用Apriori算法发现关联规则。
FP代表频繁模式(Frequent Pattern)。条件模式基(conditional pattern base)。
条件模式基是以所查找元素项为结尾的路径集合。每一条路径其实都是一条前缀路径(prefix path)。
一条前缀路径是介于所查找元素项与树根节点之间的所有内容。
FP-growth算法 - 用途
快速生成频繁项集
在一批有共性的文章中找到经常出现的匹配词汇(共现词),并进一步发现关联规则。可以用于输入自动补全功能。
发现数据中的共性。比如,可以找到,哪类用户喜欢哪些文章。
