Text文档编码识别方法

发布时间：2016年11月22日作者：文章转自网络，版权归原作者所有，反馈可立刻删除 (该文来自笔记，点击查看原文)

Text文档编码识别方法

在做文档读取的时候，时常碰到编码格式不正确的问题，而要怎么样正确识别文档的编码格式，成了很多程序员的一块心病，今天我就要试着治好这块心病，这段代码的浓缩来自上千万文档的数据分析所得，可靠率极其高。

应朋友要求，需要帮他做一个文章操作工具，既然想操作，就有文件的读取和修改，本来花费几个小时信心满满把程序交给朋友的时候，朋友突然来了句，很多文章打开出现乱码的情况，我哩个去，像是晴天霹雳深深的击在我的心窝里，我突然想到了文件编码问题，而这个问题，我曾经无数次的尝试，最终都以失败而告终，每次尝试，只不过是减少了错误概率的出现，但是还不足以弥补文件编码格式分析完全的正确，而这次，朋友又提出来编码问题，我瞬间凌乱了。

如果不把这个问题解决，给朋友做的工具等于没有任何作用，我TM前两天还吃人家一顿大餐，难道还能吐出来吗？这个搞不定，面子就丢大了，无奈之下，我询问了朋友那里有多少文件？得到答复：好几千万。瞬间我眼光放亮了，那就海量数据分析吧。

海量数据分析的时候，我使用的是一个笨方法，就是把所有文件头数据读取出来，比如读取4个byte，然后将读取的文件内容的前一百个字以（Unicode，UnicodeBigEndian，UTF8，ANSI等等）读取出来，肉眼识别吧，比如

public class Info{

public int ch0;//第一个字符

public int ch1;//第二个字符

public int ch2;//第三个字符

public int ch3;//第四个字符

public string UnicodeStr;//前100个字

public string UnicodeBigEndianStr;//前100个字

public string UTF8Str;//前100个字

public string ANSIStr;//前100个字

}

然后使用lambda做排序，个人建议对UnicodeStr，UnicodeBigEndianStr，UTF8Str，ANSIStr这些做排序，因为可识别的字符编码有一定的区间范围，做排序后，可识别汉字的一定都堆在一起；

再有就是可以对 ch0,ch1,ch2,ch3,做详细分类，看看它们之间都有什么样的关系，通过观察，我也是能发现什么的；通过归纳和总结，就得出了TEXT编码的可识别方法，如下：


        		延伸阅读
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移动安全 [无线安全]玩转无线电——不安全的蓝牙锁
        			2017-07-26
        			
        			
        			
        			消息队列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 论文笔记【图片目标分割】
        			2017-07-26
        			
        			
        			
        			词向量-LRWE模型-更好地识别反义词同义词
        			2017-07-26
        			
        			
        			
        			从栈不平衡问题 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 处理 图片剪切、压缩、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift实现JSON转Model - HandyJSON使用讲解
        			2017-07-26
        			
        			
        			
        			阿里移动安全 Android端恶意锁屏勒索应用分析
        			2017-07-26
        			
        			
        			
        			集合结合数据结构来看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		学习是年轻人改变自己的最好方式

分类导航

Text文档编码识别方法

延伸阅读

我想了解如何学习