python模块之codecs

python 模块 codecs

python 对多国语言的处理是支持的很好的,它可以处理现在任意编码的字符,这里深入的研究一下 python 对多种不同语言的处理。
有一点需要清楚的是,当 python 要做编码转换的时候,会借助于内部的编码,转换过程是这样的:
        原有编码 -> 内部编码 -> 目的编码 
    python 的内部是使用 unicode 来处理的,但是 unicode 的使用需要考虑的是它的编码格式有两种,一是 UCS-2,它一共有 65536 个码 位,另一种是 UCS-4,它有 2147483648g 个码位。对于这两种格式,python 都是支持的,这个是在编译时通过 --enable- unicode=ucs2 或 --enable-unicode=ucs4 来指定的。那么我们自己默认安装的 python 有的什么编码怎么来确定呢?有一个 办法,就是通过 sys.maxunicode 的值来判断:

import  sys
print  sys.maxunicode


     如果输出的值为 65535, 那么就是 UCS-2, 如果输出是 1114111 就是 UCS-4 编码。
我们要认识到一点:当一个字符串转换为内部编码后,它就不是 str 类型了!它是 unicode 类型:

 a  =   " 中文" 
 print  type(a)
 b  =  a.unicode(a,  " gb2312 " )
 print  type(b)


输出:
<type 'str'>
<type 'unicode'>
这个时候 b 可以方便的任意转换为其他编码,比如转换为 utf-8:

c  =  b.encode( " utf-8 " )
print  c


c 输出的东西看起来是乱码,那就对了,因为是 utf-8 的字符串。
  好了,该说说 codecs 模块了,它和我上面说的概念是密切相关的。codecs 专门用作编码转换,当然,其实通过它的接口是可以扩展到其他关于代码方面 的转换的,这个东西这里不涉及。

# -*- encoding: gb2312 -*- 
import  codecs, sys
print   ' - ' * 60 
#  创建 gb2312 编码器 
look   =  codecs.lookup( " gb2312 " )
#  创建 utf-8 编码器 
look2  =  codecs.lookup( " utf-8 " )
a  =   " 我爱北京 " 
print  len(a), a
#  把 a 编码为内部的 unicode, 但为什么方法名为 decode 呢,我 的理解是把 gb2312 的字符串解码为 unicode 
b  =  look.decode(a)
#  返回的 b[0] 是数据,b[1] 是长度,这个时候的类型是 unicode 了 
print  b[ 1 ], b[0], type(b[0])
#  把内部编码的 unicode 转换为 gb2312 编码的字符 串,encode 方法会返回一个字符串类型 
b2  =  look.encode(b[0])
#  发现不一样的地方了吧?转换回来之后,字符串长度由 14 变为了 7! 现在 的返回的长度才是真正的字数,原来的是字节数 
print  b2[ 1 ], b2[0], type(b2[0])
#  虽然上面返回了字数,但并不意味着用 len 求 b2[0] 的长度就是 7 了, 仍然还是 14,仅仅是 codecs.encode 会统计字数 
print  len(b2[0])


    上面的代码就是 codecs 的使用,是最常见的用法。另外还有一个问题就是,如果我们处理的文件里的字符编码是其他类型的呢?这个读取进行做处理也需要特 殊的处理的。codecs 也提供了方法.

# -*- encoding: gb2312 -*- 
 import  codecs, sys

 #  用 codecs 提供的 open 方法来指定打开的文件的语言编码,它会在读 取的时候自动转换为内部 unicode 
 bfile  =  codecs.open( " dddd.txt " ,  ' r ' ,  " big5 " )
 # bfile = open("dddd.txt", 'r') 
 
 ss  =  bfile.read()
 bfile.close()
 #  输出,这个时候看到的就是转换后的结果。如果使用语言内建的 open 函数 来打开文件,这里看到的必定是乱码 
 print  ss, type(ss)


上面这个处理 big5 的,可以去找段 big5 编码的文件试试。

 

------------------------------------------------------------------------------------------------------------------------------------------------------

 

字符的编码是按照某种规则在单字节字符和多字节字符之间进行转换的某种方法。从单字节到多字节叫做 decoding,从多字节到单字节叫做 encoding。在这些规则中经常用到的无非是 UTF-8 和 GB2312 两种。
 
在 Python 中,codecs 模块提供了实现这些规则的方法,通过模块公开的方法我们能够方便地获取某种编码方式的 Encoder 和 Decoder 工厂函数 (Factory function),以及 StreamReader、StreamWriter 和 StreamReaderWriter 类。
 
使用“import codecs”导入 codecs 模块。
 
codecs 模块中重要的函数之一是 lookup,它只有一个参数 encoding,指的是编码方式的名称,即 utf-8 或者 gb2312 等 等。如下示例:

>>> import codecs
>>> t = codecs.lookup("utf-8" )
>>> print t
(<built-in function utf_8_encode>, <function decode at 0x00AA25B0>, <class encodings.utf_8.StreamReader at 0x00AA0720>, <class encodings.utf_8.StreamWriter at 0x00AA06F0>) 
>>> encoder = t[0]
>>> decoder = t[1]
>>> StreamReader = t[2]
>>> StreamWriter = t[3]

lookup 函数返回一个包含四个元素的 TUPLE,其中 t[0] 是 encoder 的函数引用,t[1] 是 decoder 的函数引用,t[2] 是 UTF-8 编码方式的 StreamReader 类对象引用,t[3] 是 UTF-8 编码方式的 StreamWriter 类对象引用相信对 Python 熟悉 的你肯定知道接下来该怎么用它们了。
 
codecs 模块还提供了方便程序员使用的单独函数,以简化对 lookup 的调用。它们是:
  • getencoder(encoding)
  • getdecoder(encoding)
  • getreader(encoding)
  • getwriter(encoding)
如果我们只是想获取一种 utf-8 编码的 encoder 方法,那么只需要这样做:

>>> encoder = codecs.getencoder("utf-8" )

 
另外,对于 StreamReader 和 StreamWriter 的简化, codecs 模块提供一个 open 方法。相对于 built-in 对象 File 的 open 方法,前者多了三个参数 encoding, errors, buffering。这三个参数都是可选参数,但是对于应用来说,需要明确指定 encoding 的值,而 errors 和 buffering 使用默认值即 可。使用方法如下:

>>> fin = codecs.open("e://mycomputer.txt" , "r" , "utf-8" )
>>> print fin.readline()
这是我的电脑 
>>> fin.close()

 
总结一下,codecs 模块为我们解决的字符编码的处理提供了 lookup 方法,它接受一个字符编码名称的参数,并返回指定字符编码对应的 encoder、decoder、StreamReader 和 StreamWriter 的函数对象和类对象的引用。为了简化对 lookup 方法的调用, codecs 还提供了 getencoder(encoding)、getdecoder(encoding)、getreader(encoding) 和 getwriter(encoding) 方法;进一步,简化对特定字符编码的 StreamReader、StreamWriter 和 StreamReaderWriter 的访问,codecs 更直接地提供了 open 方法,通过 encoding 参数传递字符编码名称,即可获得对 encoder 和 decoder 的双向服务。
 
转自:http://blog.csdn.net/suofiya2008/article/details/5579413