Text文档编码识别方法

发布时间：2016年11月22日作者：文章转自网络，版权归原作者所有，反馈可立刻删除

Text文档编码识别方法

在做文档读取的时候，时常碰到编码格式不正确的问题，而要怎么样正确识别文档的编码格式，成了很多程序员的一块心病，今天我就要试着治好这块心病，这段代码的浓缩来自上千万文档的数据分析所得，可靠率极其高。

应朋友要求，需要帮他做一个文章操作工具，既然想操作，就有文件的读取和修改，本来花费几个小时信心满满把程序交给朋友的时候，朋友突然来了句，很多文章打开出现乱码的情况，我哩个去，像是晴天霹雳深深的击在我的心窝里，我突然想到了文件编码问题，而这个问题，我曾经无数次的尝试，最终都以失败而告终，每次尝试，只不过是减少了错误概率的出现，但是还不足以弥补文件编码格式分析完全的正确，而这次，朋友又提出来编码问题，我瞬间凌乱了。

如果不把这个问题解决，给朋友做的工具等于没有任何作用，我TM前两天还吃人家一顿大餐，难道还能吐出来吗？这个搞不定，面子就丢大了，无奈之下，我询问了朋友那里有多少文件？得到答复：好几千万。瞬间我眼光放亮了，那就海量数据分析吧。

海量数据分析的时候，我使用的是一个笨方法，就是把所有文件头数据读取出来，比如读取4个byte，然后将读取的文件内容的前一百个字以（Unicode，UnicodeBigEndian，UTF8，ANSI等等）读取出来，肉眼识别吧，比如

public class Info{

public int ch0;//第一个字符

public int ch1;//第二个字符

public int ch2;//第三个字符

public int ch3;//第四个字符

public string UnicodeStr;//前100个字

public string UnicodeBigEndianStr;//前100个字

public string UTF8Str;//前100个字

public string ANSIStr;//前100个字

}

然后使用lambda做排序，个人建议对UnicodeStr，UnicodeBigEndianStr，UTF8Str，ANSIStr这些做排序，因为可识别的字符编码有一定的区间范围，做排序后，可识别汉字的一定都堆在一起；

再有就是可以对 ch0,ch1,ch2,ch3,做详细分类，看看它们之间都有什么样的关系，通过观察，我也是能发现什么的；通过归纳和总结，就得出了TEXT编码的可识别方法，如下：


        		网友评论

分类导航

Text文档编码识别方法

网友评论

更多精彩分享