Python中的Unicode和utf-8
上一篇提过了字符集的历史其中简单的讲解了Unicode与utf-8的关系,简单的总结一下:
utf-8和utf-16 、utf-32是一类,实现的功能是一样的,只是utf-8使用的最为广泛,但是Unicode和utf-8并不是同一类,Unicode是表现形式,utf-8是存储形式
unicode是表现形式(utf-8可以解码成unicode)
utf-8 、utf-16 、utf-32 是存储形式(unicode可以编码成utf-8)
理解:存储的时候需要编码成utf-8,表现的时候是一个utf-8需要解码成为Unicode,换句话说,在代码中处理的是Unicode,在文件中存储的时候是以utf-8的形式存储。
不使用Unicode的形式
In [1]: name = '张三'
In [2]: print name
张三
In [3]: name
Out[3]: '\xe5\xbc\xa0\xe4\xb8\x89' #utf8编码,存储形式 In [4]: len(name)
Out[4]: 6
In&n

