前言

最近在看Peter Harrington写的“机器学习实战”,这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集。

基本概念

  • FP-growth算法
    FP-growth算法的性能很好,只需要扫描两次数据集,就能生成频繁项集。但不能用于发现关联规则。
    我想应该可以使用Apriori算法发现关联规则。
    FP代表频繁模式(Frequent Pattern)。

  • 条件模式基(conditional pattern base)。
    条件模式基是以所查找元素项为结尾的路径集合。每一条路径其实都是一条前缀路径(prefix path)。
    一条前缀路径是介于所查找元素项与树根节点之间的所有内容。

FP-growth算法 - 用途

  • 快速生成频繁项集

  • 在一批有共性的文章中找到经常出现的匹配词汇(共现词),并进一步发现关联规则。可以用于输入自动补全功能。

  • 发现数据中的共性。比如,可以找到,哪类用户喜欢哪些文章。

核心算法解释

FP-growth算法:生成频繁项集

延伸阅读

学习是年轻人改变自己的最好方式-Java培训,做最负责任的教育,学习改变命运,软件学习,再就业,大学生如何就业,帮大学生找到好工作,lphotoshop培训,电脑培训,电脑维修培训,移动软件开发培训,网站设计培训,网站建设培训学习是年轻人改变自己的最好方式