• Python中的Unicode和utf-8

上一篇提过了字符集的历史其中简单的讲解了Unicode与utf-8的关系,简单的总结一下:

 

utf-8和utf-16 、utf-32是一类,实现的功能是一样的,只是utf-8使用的最为广泛,但是Unicode和utf-8并不是同一类,Unicode是表现形式,utf-8是存储形式

  • unicode是表现形式(utf-8可以解码成unicode)

  • utf-8 、utf-16 、utf-32 是存储形式(unicode可以编码成utf-8)

 

理解:存储的时候需要编码成utf-8,表现的时候是一个utf-8需要解码成为Unicode,换句话说,在代码中处理的是Unicode,在文件中存储的时候是以utf-8的形式存储。

 

 

  • 不使用Unicode的形式

 

Android培训,安卓培训,手机开发培训,移动开发培训,云培训培训

In [1]: name = '张三'
 In [2]: print name     
张三
 
In [3]: name
Out[3]: '\xe5\xbc\xa0\xe4\xb8\x89'     #utf8编码,存储形式 In [4]: len(name)
Out[4]: 6
 In&n
        
		

网友评论