python编码encode和decode-11726068

huangfen2002 发表于 2018-8-6 11:32:50

　　计算机里面，编码方法有很多种，英文的一般用ascii,而中文有unicode，utf-8,gbk,utf-16等等。
　　unicode是 utf-8,gbk,utf-16这些的父编码，这些子编码都能转换成unicode编码，然后转化成子编码，例如utf8可以转成unicode，再转gbk，但不能直接从utf8转gbk
　　所以，python中就有两个方法用来解码（decode）与编码（encode），解码是子编码转unicode，编码就是unicode转子编码
　　1.编码
　　

#encoding=utf-8　　
c=u'\u5f00\u59cb\u6267\u884c\u66f4\u65b0\u547d\u4ee4'
　　
print c
　　
print c.encode('utf8')
　　
print c.encode('gbk')
　　

　　在这里，文件的编码方式为utf8,控制台的编码方式是utf8
　　变量c是一个unicode编码的字符串（需要在引号前面加u）
　　输出的结果为：
　　

开始执行更新命令　　
开始执行更新命令
　　
��ʼִ�и��
　　

　　因为控制台是utf8编码，所以unicode编码和utf8编码都能识别，但是gbk就不可以了
　　2.解码
　　

#encoding=utf-8　　
a = '中文'
　　
print a.decode('g')
　　
print
　　

　　这里a为utf8编码，decode方法将utf8解码为unicode编码
　　输出结果：
　　

中文　　

　　

　　由于控制台能识别unicode编码，所以需要把字符串放在列表里面才能看到unicode源码
　　

#encoding=utf-8　　
a = '中文'
　　
print
　　

　　因为a是utf8编码的，如果将a用gbk解码，程序就会报错
　　UnicodeDecodeError: 'gbk' codec can't decode bytes in position 2-3: illegal multibyte sequence
　　

a = '中文'　　
print a.decode('utf-16')
　　

　　如果用utf-16解码方法解码utf-8的字符串，程序并不会报错（可能因为它们的编码方式相似），但是返回的是乱码：
　　如果一个字符串为unicode码，又没有u标识，可以这样来转换成中文
　　

a='\u8054\u76df\u533a'　　
b="u'%s'"%a
　　

　　
print eval(b)
　　

　　

　　后记
　　1.如果想知道一个字符串是什么编码，可以print [字符串] 来看二进制码
　　

　　
['\xe7\x9b\xae\xe6\xa0\x87\xe5\x8c\xba\xe6\x9c\x8d']
　　

　　第一个是unicode，第二个是utf-8

页: [1]

运维网's Archiver

python编码encode和decode-11726068