分类导航

NLTK学习笔记(六):利用机器学习进行文本分类

发布时间：2017年06月22日作者： IT网络文摘 (该文来自笔记，点击查看原文)

一、监督式分类：建立在训练语料基础上的分类

训练过程中，特征提取器将输入转化为特征集，并且记录对应的正确分类。生成模型。预测过程中，未见过的输入被转换特征集，通过模型产生预测标签。

特征提取器和朴素贝叶斯分类器

特征提取器返回字典，这个字典被称为特征集。然后利用
nltk自带的朴素贝叶斯分类器 NaiveBayesClassifier 生成分类器。并且可以用nltk.classify.accuracy(分类器,测试集) 测试准确度。

import nltkfrom nltk.corpus import namesimport randomdef gender_features(word): #特征提取器
    return {'last_letter':word[-1]} #特征集就是最后一个字母names = [(name,'male') for name in names.words('male.txt')]+[(name,'female') for name in names.words('female.txt')]
random.shuffle(names)#将序列打乱features = [(gender_features(n),g) for (n,g) in names]#返回对应的特征和标签train,test = features[500:],features[:500] #训练集和测试集classifier = nltk.NaiveBayesClassifier.train(train) #生
        
        	
        		延伸阅读
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移动安全 [无线安全]玩转无线电——不安全的蓝牙锁
        			2017-07-26
        			
        			
        			
        			消息队列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 论文笔记【图片目标分割】
        			2017-07-26
        			
        			
        			
        			词向量-LRWE模型-更好地识别反义词同义词
        			2017-07-26
        			
        			
        			
        			从栈不平衡问题 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 处理 图片剪切、压缩、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift实现JSON转Model - HandyJSON使用讲解
        			2017-07-26
        			
        			
        			
        			阿里移动安全 Android端恶意锁屏勒索应用分析
        			2017-07-26
        			
        			
        			
        			集合结合数据结构来看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		学习是年轻人改变自己的最好方式

分类导航

NLTK学习笔记(六):利用机器学习进行文本分类

一、监督式分类：建立在训练语料基础上的分类

特征提取器和朴素贝叶斯分类器

延伸阅读

我想了解如何学习