前言

最近在看Peter Harrington写的“机器学习实战”,这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集。

基本概念

  • FP-growth算法
    FP-growth算法的性能很好,只需要扫描两次数据集,就能生成频繁项集。但不能用于发现关联规则。
    我想应该可以使用Apriori算法发现关联规则。
    FP代表频繁模式(Frequent Pattern)。

  • 条件模式基(conditional pattern base)。
    条件模式基是以所查找元素项为结尾的路径集合。每一条路径其实都是一条前缀路径(prefix path)。
    一条前缀路径是介于所查找元素项与树根节点之间的所有内容。

FP-growth算法 - 用途

  • 快速生成频繁项集

  • 在一批有共性的文章中找到经常出现的匹配词汇(共现词),并进一步发现关联规则。可以用于输入自动补全功能。

  • 发现数据中的共性。比如,可以找到,哪类用户喜欢哪些文章。

核心算法解释

FP-growth算法:生成频繁项集

网友评论