从2014年8月开始在博客园写博客,至今已经积累了82篇,集中在机器学习、NLP、数据结构与算法、大数据、编程语言等方面。在此做个总结,以后还会陆续更新……

1. 机器学习

【十大经典数据挖掘算法】系列:

  1. C4.5

  2. K-Means

  3. SVM

  4. Apriori

  5. EM

  6. PageRank

  7. AdaBoost

  8. kNN

  9. Na?ve Bayes

  10. CART

2. NLP

中文分词

中文分词工具thulac4j重磅发布.

【中文分词】理论篇:

  1. 【中文分词】简单高效的MMSeg.

  2. 【中文分词】隐马尔可夫模型HMM.

  3. 【中文分词】二阶隐马尔可夫模型2-HMM.

  4. 【中文分词】最大熵马尔可夫模型MEMM.

  5. 【中文分词】条件随机场CRF.

  6. 【中文分词】结构化感知器SP.

【中文分词】实践篇:

  1. 中文分词工具探析(一):ICTCLAS (NLPIR)

  2. 中文分词工具探析(二):Jieba

  3. 中文分词工具探析(三):Ansj

  4. 开源中文分词工具探析(四):THULAC

  5. 开源中文分词工具探析(五):FNLP

3. 数据结构与算法

数据结构篇:

  1. Trie树的应用:查询IP地址的ISP.

  2. 多叉树实现类目体系.

  3. Bloom Filter:海量数据的HashSet.

  4. 双数组Trie树 (Double-array Trie) 及其应用.

算法篇:

  1. 【模式匹配】KMP算法的来龙去脉.

  2. 【模式匹配】更快的Boyer-Moore算法.

  3. 【模式匹配】Aho-Corasick自动机.

  4. 【图论】深入理解Dijsktra算法.

  5. 【图论】求无向连通图的割点.

  6. 【图论】有向无环图的拓扑排序.

  7. 【动态规划】最长公共子序列与最长公共子串.

  8. 连续子数组最大和.

  9. 最长回文子串.

  10. Top K问题的两种解决思路.

信息论与编码篇:

  1. 【数据压缩】Huffman编码.

  2. 【数据压缩】LZ77算法原理及实现.

  3. 【数据压缩】LZ78算法原理及实现.

  4. 整数压缩编码 ZigZag.

【LeetCode题解】系列:

  1. 【LeetCode题解】二叉树的遍历.

  2. 【LeetCode题解】数组Array.

  3. 【LeetCode题解】链表Linked List.

  4. 【LeetCode题解】排序.

4. 大数据

SQL on Hadoop (Hive、Pig)系列:

  1. 常用HiveQL总结.

  2. Hive UDF初探.

  3. 【Pig源码分析】谈谈Pig的数据模型.

  4. Pig 实现关键词匹配.

  5. Pig + Ansj 统计中文文本词频.

OLAP (Kylin)系列:

  1. Kylin的cube模型.

  2. Apache Kylin 部署之不完全指南.

  3. 【Kylin实战】Hive复杂数据类型与视图.

  4. 【Kylin实战】邮件报表生成.

  5. 轻量级OLAP(一):Cube计算.

  6. 轻量级OLAP(二):Hive + Elasticsearch.

工作流调度系列:

  1. 工作流引擎Oozie(一):workflow.

  2. 工作流引擎Oozie(二):coordinator.

  3. 灵活可扩展的工作流管理平台Airflow.

5. 编程语言

Java

探究篇:

  1. Java中的逆变与协变.

  2. 【JDK源码分析】浅谈HashMap的原理.

  3. 【JDK源码分析】String的存储区与不可变性.

实战篇:

  1. Java实时读取日志文件.

  2. Java实现过滤中文乱码.

Python

实战篇:

  1. 【Python实战】机型自动化标注(搜狗爬虫实现).

  2. 【Python实战】Pandas:让你像写SQL一样做数据分析(一).

  3. 【Python实战】Pandas:让你像写SQL一样做数据分析(二).

  4. 【Python实战】Scrapy豌豆荚应用市场爬虫.

  5. 【Python实战】Django建站笔记.

如需转载,请注明作者及出处.

作者:Treant

出处:http://www.cnblogs.com/en-heng/

http://www.cnblogs.com/en-heng/p/6597986.html