分类导航

结巴分词1--结巴分词系统介绍

发布时间：2016年11月18日作者：文章转自网络，版权归原作者所有，反馈可立刻删除 (该文来自笔记，点击查看原文)

0 起因

由于博主之前做了一些文本挖掘的项目，在项目中或多或少的用到了分词模块，对于中文分词，博主一般使用Python开发的jieba分词组件。最近，博主想阅读一些开源系统，就先从jieba开始，一是因为jieba实现了NLP的一些基础技术，例如分词、词性标注；二是因为想学习学习大神们的编码规范。

1 jieba系统简介

"结巴"中文分词：做最好的Python中文分词组件。

特点：

支持三种分词模式
支持繁体分词
支持自定义词典
MIT授权协议

涉及算法：

基于前缀词典实现词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG），采用动态规划查找最大概率路径，找出基于词频的最大切分组合；
对于未登录词，采用了基于汉字成词能力的 HMM模型，采用Viterbi算法进行计算；
分别基于tfidf和textrank模型抽取关键词；

2 jieba系统框架

jieba分词系统，主要实现三个模块，

分词
词性标注
关键词抽取

其中，分词有三种模式，默认是精确模式，

延伸阅读

ssh框架 2016-09-30

阿里移动安全 [无线安全]玩转无线电——不安全的蓝牙锁 2017-07-26

消息队列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26

Selective Search for Object Recognition 论文笔记【图片目标分割】 2017-07-26

词向量-LRWE模型-更好地识别反义词同义词 2017-07-26

从栈不平衡问题理解 calling convention 2017-07-26

php imagemagick 处理图片剪切、压缩、合并、插入文本、背景色透明 2017-07-26

Swift实现JSON转Model - HandyJSON使用讲解 2017-07-26

阿里移动安全 Android端恶意锁屏勒索应用分析 2017-07-26

集合结合数据结构来看看(二) 2017-07-26

学习是年轻人改变自己的最好方式

分类导航

结巴分词1--结巴分词系统介绍

0 起因

1 jieba系统简介

2 jieba系统框架

延伸阅读

我想了解如何学习