当前位置:   article > 正文

Effective Python学习笔记

result=[[row[i]for row in matrix if sum(row)>10]for i in range()

人生苦短我用 Python

注:最后附电子书地址

一、Pythonic Thinking

第1条: 确认自己所用的Python版本

  • 使用python -version查看当前Python版本
  • Python的运行时版本:CPython,JyPython,IronPython和PyPy等
  • 优先考虑使用 Python 3

第2条: 遵循PEP 8 风格指南

PEP 8:http://www.python.org/dev/peps/pep-0008/

PEP 8:http://www.python.org/dev/peps/pep-0008/

空白:
  • 不要使用 tab 缩进,使用空格来缩进
  • 使用四个空格缩进,使用四个空格对长表达式换行缩进
  • 每行的字符数不应该超过 79
  • class和funciton之间用两个空行,class的method之间用一个空行
  • list索引和函数调用,关键字参数赋值不要在两旁加空格
  • 变量赋值前后都用一个空格
命名
  • 函数,变量以及属性应该使用小写,如果有多个单词推荐使用下划线进行连接,如lowercase_underscore
  • 被保护 的属性应该使用 单个 前导下划线来声明。
  • 私有 的属性应该使用 两个 前导下划线来进行声明。
  • 类以及异常信息 应该使用单词 首字母大写 形式,也就是我们经常使用的驼峰命名法,如CapitalizedWord。
  • 模块级 别的常量应该使用 全部大写 的形式, 如ALL_CAPS。
  • 类内部的实例方法的应该将self作为其第一个参数。且self也是对当前类对象的引用。
  • 类方法应该使用cls来作为其第一个参数。且self引用自当前类。
表达式和语句( Python之禅: 每件事都应该有直白的做法,而且最好只有一种 )
  • 使用内联否定(如 if a is not b) 而不是显示的表达式(如if not a is b)。
  • 不要简单地通过变量的长度(if len(somelist) == 0)来判断空值。使用隐式的方式如来假设空值的情况(如if not somelistFalse来进行比较)。
  • 上面的第二条也适用于非空值(如[1],或者'hi')。对这些非空值而言 if somelist默认包含隐式的True
  • 避免将if , for, while, except等包含多个语块的表达式写在一行内,应该分割成多行。
  • 总是把import语句写在Python文件的顶部。
  • 当引用一个模块的时候使用绝对的模块名称,而不是与当前模块路径相关的名称。例如要想引入bar包下面的foo模块,应该使用from bar import foo而不是import foo
  • 如果非要相对的引用,应该使用明确的语法from . import foo
  • 按照以下规则引入模块:标准库,第三方库,你自己的库。每一个部分内部也应该按照字母顺序来引入。

第3条: 了解 bytes、str与 unicode 的区别

备忘录:
  • Python3 两种字符串类型:bytes和str,bytes表示8-bit的二进制值,str表示unicode字符
  • Python2 两种字符串类型:str和unicode,str表示8-bit的二进制值,unicode表示unicode字符
  • 从文件中读取或者写入二进制数据时,总应该使用 'rb' 或 'wb' 等二进制模式来开启文件

Python3中的str实例和Python2中的unicode实例并没有相关联的二进制编码。所以要想将Unicode字符转换成二进制数据,就必须使用encode方法,反过来,要想把二进制数据转换成Unicode字符,就必须使用decode方法。

​ 当你开始写Python程序的时候,在接口的最开始位置声明对Unicode的编码解码的细节很重要。在你的代码中,最核心的部分应使用Unicode字符类型(Python3中使用str,Python2中使用unicode)并且不应该考虑关于字符编码的任何其他方式。本文允许你使用自己喜欢的可替代性的文本编码方式(如Latin-1,Shift JIS, Big5),但是应该对你的文本输出编码严格的限定一下(理想的方式是使用UTF-8编码)。

由于字符类型的不同,导致了Python代码中出现了两种常见的情形的发生。

  • 你想操作UTF-8(或者其他的编码方式)编码的8比特值 序列。

  • 你想操作没有特定编码的Unicode字符。 所以你通常会需要两个工具函数来对这两种情况的字符进行转换,以此来确保输入值符合代码所预期的字符类型。

  • 二进制值和unicode字符需要经过encode和decode转换,Python2的unicode和Python3的str没有关联二进制编码,通常使用UTF-8

  • Python2转换函数:

    • to_unicode

      1. # Python 2
      2. def to_unicode(unicode_or_str):
      3. if isinstance(unicode_or_str, str):
      4. value = unicode_or_str.decode('utf-8')
      5. else:
      6. value = unicode_or_str
      7. return value # Instance of unicode
      8. 复制代码
    • to_str

      1. # Python 2
      2. def to_str(unicode_or_str):
      3. if isinstance(unicode_or_str, unicode):
      4. value = unicode_or_str.encode('utf-8')
      5. else:
      6. value = unicode_or_str
      7. return value # Instance of str
      8. 复制代码
  • Python2,如果str只包含7-bit的ascii字符,unicode和str是一样的类型,所以:

    • 使用+连接:str + unicode
    • 可以对str和unicode进行比较
    • unicode可以使用格式字符串,’%s’

    注:在Python2中,如果只处理7位ASCII的情形下,可以等价 str 和 unicode 上面的规则,在Python3中 bytes 和 str 实例绝不等价

  • 使用open返回的文件操作,在Python3是默认进行UTF-8编码,但在Pyhton2是二进制编码

    1. # python3
    2. with open(‘/tmp/random.bin’, ‘w’) as f:
    3. f.write(os.urandom(10))
    4. # >>>
    5. #TypeError: must be str, not bytes
    6. 复制代码

    这时我们可以用二进制方式进行写入和读取:

    1. # python3
    2. with open('/tmp/random.bin','wb) as f:
    3. f.write(os.urandom(10))
    4. 复制代码

第4条:用辅助函数来取代复杂的表达式

  • 开发者很容易过度使用Python的语法特效,从而写出那种特别复杂并且难以理解的单行表达式
  • 请把复杂的表达式移入辅助函数中,如果要反复使用相同的逻辑,那就更应该这么做
  • 使用 if/else 表达式,要比使用 or 或者 and 这样的 Booolean 操作符更加清晰

第5条:了解切割序列的办法

  • 分片机制自动处理越界问题,但是最好在表达边界大小范围是更加的清晰。(如a[:20] 或者a[-20:]

  • list,str,bytes和实现__getitem__和__setitem__ 这两个特殊方法的类都支持slice操作

  • 基本形式是:somelist[start:end],不包括end,可以使用负数,-1 表示最后一个,默认正向选取,下标0可以省略,最后一个下标也可以省略

    1. a = ['a','b','c','d','e','f','g','h']
    2. print('Middle Two:',a[3:-3])
    3. >>>
    4. Middle Two: ['d','e']
    5. 复制代码
  • slice list是shadow copy,somelist[0:]会复制原list,切割之后对新得到的列表进行修改不会影响原来的列表

    1. a = ['a','b','c','d','e','f','g','h']
    2. b = a[4:]
    3. print("Before:", b)
    4. b[1] = 99
    5. print("After:",b)
    6. print("Original:",a)
    7. >>>
    8. Before: ['e','f','g','h']
    9. After: ['e',99,'g','h']
    10. Original: ['a','b','c','d','e','f','g','h']
    11. 复制代码
  • slice赋值会修改slice list,即使长度不一致(增删改)

    1. print("Before:",a)
    2. a[2:7] = [99,22,14]
    3. print("After:",a)
    4. >>>
    5. Before: ['a','b','c','d','e','f','g','h']
    6. After: ['a','b',99,22,14,'h']
    7. 复制代码
  • 引用-变化-追随

    当为列表赋值的时候省去开头和结尾下标的时候,将会用 这个引用 来替换整个列表的内容,而不是创建一个新的列表。同时,引用了这个列表的列表的相关内容,也会跟着发生变化。

    1. a = ['a','b','c','d','e','f','g','h']
    2. b = a
    3. print("Before:",b)
    4. a[:] = [101,102,103]
    5. print("After:",b)
    6. >>>
    7. Before: ['a','b','c','d','e','f','g','h']
    8. After: [101,102,103]
    9. # 解决方案:深拷贝
    10. import copy
    11. b = copy.copy(a)
    12. print("Before:",b)
    13. a[:] = [101,102,103]
    14. print("After:",b)
    15. >>>
    16. Before: ['a','b','c','d','e','f','g','h']
    17. After: ['a','b','c','d','e','f','g','h']
    18. 复制代码

第6条: 避免在单次切片操作内同事指定 start、end和 stride(个人觉得还好)

备忘录:
  • 在分片中指定startend,stride会让人感到困惑,难于阅读。
  • 尽可能的避免在分片中使用负数值。
  • 避免在分片中同时使用startendstride;如果非要使用,考虑两次赋值(一个分片,一个调幅),或者使用内置模块itertoolsdeislice方法来进行处理。
步幅

Python 有针对步幅的特殊的语法,形如:somelist[start:end:stride]

  1. a = ['red','orange','yellow','green','blue','purple']
  2. odds = a[::2]
  3. print(odds)
  4. >>>
  5. ['red','yellow','blue']
  6. 复制代码
负数步幅

步幅为-1来实现字符串的逆序,反向选取

  1. # 当数据仅仅为ASCII码内数据时工作正常
  2. x = b'mongoose'
  3. y = x[::-1]
  4. print(y)
  5. >>>
  6. b'esoognom'
  7. # 出现Unicode字符的时候就会报错
  8. w = '谢谢'
  9. x = w.encode(utf-8')
  10. y = a[::-1]
  11. z = y.decode('utf-8')
  12. >>>
  13. UnicodeDecodeError: 'utf-8' codec can't decode byte 0x9d in position 0: invalid start byte.
  14. a = ['a','b','c','d','e','f','g','h']
  15. a[2::2] # ['c','e','g']
  16. a[-2::-2] # ['g','e','c','a']
  17. a[-2:2:-2] # ['g','e'] 尤其注意这里,类似于坐标轴,分片范围是左闭右开,所以2的位置不可达
  18. a[2:2:-2] # []
  19. 复制代码

第7条: 用列表推导来代替 map 和 filter

备忘录
  • 列表表达式比内置的map,filter更加清晰,因为map,filter需要额外的lambda表达式的支持。
  • 列表表达式允许你很容易的跳过某些输入值,而一个map没有filter帮助的话就不能完成这一个功能。
  • 字典和集合也都支持列表表达式。

第一个例子:

  1. a = [1,2,3,4,5,6,7,8,9,10]
  2. squares = [x*x for x in a]
  3. print(squares)
  4. >>>
  5. [1,4,9,16,25,36,49,64,81,100]
  6. 复制代码

map和filter需要lambda函数,使得代码更不可读

  1. squares = map(lambda x: x **2 ,a)
  2. 复制代码

第二个例子:

  1. even_squares = [x**2 for x in a if x%2==0]
  2. print(even_squares)
  3. >>>
  4. [4,16,36,64,100]
  5. 复制代码

map:

  1. alt = map(lambda x: x**2, filter(lambda x: x%2==0,a))
  2. assert even_squares== list(alt)
  3. 复制代码

字典和集合 有他们自己的一套列表表达式。这使得书写算法的时候导出数据结构更加的简单。

  1. chile_rank = {'ghost':1,'habanero':2,'cayenne':3}
  2. rank_dict = {rank:name for name,rank in child_rank.items()}
  3. chile_len_set = {len(name) for name in rank_dict.values()}
  4. print(rand_dict)
  5. print(chile_len_set)
  6. >>>
  7. {1: 'ghost',2: 'habanero',3: 'cayenne'}
  8. {8, 5, 7}
  9. 复制代码

第8条: 在列表表达式中避免使用超过两个的表达式

备忘录:
  • 列表表达式支持多层的循环和条件语句,以及每层循环内部的条件语句。
  • 当列表表达式内部多余两个表达式的时候就会变得难于阅读,这种写法应该避免使用。
第一个例子:

not:

  1. squared = [[ x**2 for x in row] for row in matrix]
  2. print(squared)
  3. >>>
  4. [[1, 4, 9],[16, 25, 36],[49, 64, 81]]
  5. 复制代码

prefer:

  1. matrix = [[1, 2, 3],[4, 5, 6],[7, 8, 9]]
  2. flat = [x for row in matrix for x in row]
  3. print(flat)
  4. >>>
  5. [ 1, 2, 3, 4, 5, 6, 7, 8, 9]
  6. 复制代码
第二个例子:

not:

  1. my_lists = [
  2. [[1, 2, 3],[4, 5, 6]],
  3. # ...
  4. ]
  5. flat = [ x for sublist in my_lists
  6. for sublist2 in sublist
  7. for x in sublist2]
  8. print(flat)
  9. 复制代码

prefer:

  1. flat = []
  2. for sublist in my_lists:
  3. for sublist2 in sublist:
  4. flat.append(sublist2)
  5. 复制代码

从这点来看,多行的列表表达式并不比原方案少多少代码。这里,作者更加的建议使用正常的循环体语句。因为其比列表表达式更简洁好看一点,也更加易读,易懂。

第三个例子:

列表表达式同样支持if条件语句。多个条件语句出现在相同的循环水平中也是一个隐式&的表达,即同时成立才成立。例如:你只想获得列表中大于4且是偶数的值。那么下面的两个列表表达式是等价的。

  1. a = [1,2,3,4,5,6,7,8,9,10]
  2. b = [x for x in a if x> 4 if x%2 ==0]
  3. c = [x for x in a if x > 4 and if x%2 ==0]
  4. 复制代码

条件语句可以被很明确的添加在每一层循环的for表达式的后面,起到过滤的作用。例如:你想过滤出每行总和大于10且能被3正处的元素。虽然用列表表达式表示出这段代码很短,但是其可读性确实很糟糕。

  1. matrix = [[ 1, 2, 3],[ 4, 5, 6],[ 7, 8, 9]]
  2. filtered = [[x for x in row if x%3==0]
  3. for row in matrix if sum(row) >= 10 ]
  4. print(filtered)
  5. >>>
  6. [[6],[9]]
  7. 复制代码

第9条: 数据量较大的地方考虑使用生成器表达式

备忘录
  • 当遇到大输入事件的时候,使用列表表达式可能导致一些问题。
  • 生成器表达式通过迭代的方式来处理每一个列表项,可以防止出现内存危机。
  • 当生成器表达式 处于链式状态时,会执行的很迅速。
列表生成式的缺点

列表生成式会给输入列表中的每一个只创建一个新的只包含一个元素的列表。这对于小的输入序列可能是很好用的,但是大的输入序列而言就很有可能导致你的程序崩溃。

生成器表达式的好处

Python提供了一个generator expression(生成器表达式),在程序运行的过程中,生成其表达式不实现整个输出序列,相反,生成其表达式仅仅是对从表达式中产生一个项目的迭代器进行计算,说白了就是每次仅仅处理一个迭代项,而不是整个序列。

生成器表达式通过使用类似于列表表达式的语法(在()之间而不是[]之间,仅此区别)来创建。

举例:

  1. it = ( len(x) for x in open('/tmp/my_file.txt'))
  2. print(it)
  3. >>>
  4. <generator object <genexpr> at 0x101b81480>
  5. print(next(it))
  6. print(next(it))
  7. >>>
  8. 100
  9. 57
  10. 复制代码

链式操作:

  1. roots = ((x,x**0.5) for x in it)
  2. print(next(roots))
  3. >>>
  4. (15,3.872983346207417)
  5. 复制代码

第10条:enumerate 比range更好用

备忘录:
  • enumerate提供了简洁的语法,再循环迭代一个迭代器的同时既能获取下标,也能获取当前值。
  • 可以添加第二个参数来指定 索引开始的序号,默认为0

Prefer

  1. for i, flavor in enumerate(flavor_list):
  2. print(‘%d: %s’ % (i + 1, flavor))
  3. 复制代码

not

  1. for i in range(len(flavor_list)):
  2. flavor = flavor_list[i]
  3. print(‘%d: %s’ % (i + 1, flavor))
  4. # 也可以通过指定 索引开始的下标序号来简化代码
  5. for i, flavor in enumerate(flavor_list,1):
  6. print("%d: %s"%(i,flavor))
  7. 复制代码

第11条:用 zip 函数来同时遍历两个迭代器

备忘录
  • 内置的zip函数可以并行的对多个迭代器进行处理。
  • Python3中,zip 采用懒模式生成器获得的是元组;而在Python2中,zip返回的是一个包含了其处理好的所有元祖的一个集合。
  • 如果所处理的迭代器的长度不一致时,zip会默认截断输出,使得长度为最先到达尾部的那个长度。
  • 内置模块itertools中的zip_longest函数可以并行地处理多个迭代器,而可以无视长度不一致的问题。

Prefer:

  1. # 求最长字符串
  2. names = [‘Cecilia’, ‘Lise’, ‘Marie’]
  3. max_letters = 0
  4. letters = [len(n) for n in names]
  5. for name, count in zip(names, letters):
  6. if count > max_letters:
  7. longest_name = name
  8. max_letters = count
  9. print(longest_name)
  10. >>>
  11. Cecilia
  12. 复制代码

not:

  1. for i, name in enumerate(names):
  2. count = letters[i]
  3. if count > max_letters:
  4. longest_name = name
  5. max_letters = count
  6. 复制代码

第12条: 在for 和while 循环体后避免使用else语句块

备忘录
  • Python有用特殊的语法能够让else语块在循环体结束的时候立刻得到执行。
  • 循环体后的else语块只有在循环体没有触发break语句的时候才会执行。
  • 避免在循环体的后面使用else语块,因为这样的表达不直观,而且容易误导读者。
  1. for i in range(3):
  2. print('Loop %d' % i)
  3. else:
  4. print('Else block')
  5. >>>
  6. Loop 0
  7. Loop 1
  8. Loop 2
  9. Else block
  10. 复制代码

第13条: 合理利用 try/except/else/finally

备忘录
  • try/finally组合语句可以使得你的代码变得很整洁而无视try块中是否发生异常。
  • else块可以最大限度的减少try块中的代码的长度,并且可以可视化地辨别try/except成功运行的部分。
  • else块经常会被用于在try块成功运行后添加额外的行为,但是要确保代码会在finally块之前得到运行。\
  1. finally 块

    总是会执行,可以用来关闭文件句柄之类的

  2. else 块

    try 块没有发生异常则执行 else 块,有了 else 块,我们可以尽量减少 try 块的代码量

示例:

  1. UNDEFINED = object()
  2. def divide_json(path):
  3. handle = open(path, 'r+') # May raise IOError
  4. try:
  5. data = handle.read() # May raise UnicodeDecodeError
  6. op = json.loads(data) # May raise ValueError
  7. value = (op['numerator'] / op['denominator']) # May raise ZeroDivisionError
  8. except ZeroDivisionError as e:
  9. return UNDEFINED
  10. else:
  11. op[‘result’] = value
  12. result = json.dumps(op)
  13. handle.seek(0)
  14. handle.write(result) # May raise IOError
  15. return value
  16. finally:
  17. handle.close() # Always runs
  18. 复制代码

二、函数

第14条: 返回 exceptions 而不是 None

备忘录
  • 返回None的函数来作为特殊的含义是容易出错的,因为None和其他的变量(例如 zero,空字符串)在条件表达式的判断情景下是等价的。
  • 通过触发一个异常而不是直接的返回None是比较常用的一个方法。这样调用方就能够合理地按照函数中的说明文档来处理由此而引发的异常了。

示例:

  1. def divide(a, b):
  2. try:
  3. return a / b
  4. except ZeroDivisionError:
  5. return None
  6. 复制代码

返回 None 容易造成误用,下面的程式分不出 0 和 None

  1. x, y = 0, 5
  2. result = divide(x, y)
  3. if not result:
  4. print('Invalid inputs') # This is wrong!
  5. else:
  6. assert False
  7. 复制代码

raise exception:

  1. def divide(a, b):
  2. try:
  3. return a / b
  4. except ZeroDivisionError as e:
  5. raise ValueError('Invalid inputs') from e
  6. 复制代码

调用者看到该函数的文档中描述的异常之后,应该就会编写相应的代码来处理它们了。

  1. x, y = 5, 2
  2. try:
  3. result = divide(x, y)
  4. except ValueError:
  5. print("Invalid inputs")
  6. else:
  7. print("Result is %.1f"% result)
  8. >>>
  9. Result is 2.5
  10. 复制代码

第15条: 了解闭包中是怎样使用外围作用域变量

备忘录
  • 闭包函数可以从变量被定义的作用域内引用变量。
  • 默认地,闭包不能通过赋值来影响其检索域。
  • Python3中,可以使用nonlocal关键字来突破闭包的限制,进而在其检索域内改变其值。(global 关键字用于使用全局变量,nonlocal 关键字用于使用局部变量(函数内))
  • Python2中没有nonlocal关键字,替代方案就是使用一个单元素(如列表,字典,集合等等)来实现与nonlocal一致的功能。
  • 除了简单的函数,在其他任何地方都应该尽力的避免使用nonlocal关键字。

Python编译器变量查找域的顺序:

  • 当前函数的作用域
  • 任何其他的封闭域(比如其他的包含着的函数)。
  • 包含该段代码的模块域(也称之为全局域)
  • 内置域(包含了像len,str等函数的域)

考虑如下示例:

  1. # 优先排序
  2. def sort_priority2(values, group):
  3. found = False # 作用域:sort_priority2
  4. def helper(x):
  5. if x in group:
  6. found = True # 作用域: helper
  7. return (0, x)
  8. return (1, x) # found在helper的作用域就会由helper转至sort_priority2函数
  9. values.sort(key=helper)
  10. return found
  11. values = [1,5,3,9,7,4,2,8,6]
  12. group = [7,9]
  13. # begin to call
  14. found = sort_priority2(values, group)
  15. print("Found:",found)
  16. print(values)
  17. >>>
  18. Found: False
  19. [7, 9, 1, 2, 3, 4, 5, 6, 8]
  20. 复制代码

排序的结果是正确的,但是很明显分组的那个标志是不正确的了。group中的元素无疑可以在values里面找到,但是函数却返回了False,为什么会发生这样的状况呢?(提示:Python 编译器变量查找域的顺序)

把数据放到外边

Python3中,对于闭包而言有一个把数据放到外边的特殊的语法。nonlocal语句习惯于用来表示一个特定变量名称的域的遍历发生在赋值之前。 唯一的限制就是nonlocal不会向上遍历到模块域级别(这也是为了防止污染全局变量空间)。这里,我定义了一个使用了nonlocal关键字的函数。

  1. def srt_priority3(numbers, group):
  2. found = False
  3. def helper(x):
  4. nonlocal found
  5. if x in group:
  6. found = True
  7. return (0, x)
  8. return (1, x)
  9. numbers.sort(key=helper)
  10. return found
  11. 复制代码

当数据在闭包外将被赋值到另一个域时,nonlocal 语句使得这个过程变得很清晰。它也是对global语句的一个补充,可以明确的表明变量的赋值应该被直接放置到模块域中。

然而,像这样的反模式,对使用在那些简单函数之外的其他的任何地方。nonlocal引起的副作用是难以追踪的,而在那些包含着nonlocal语句和赋值语句交叉联系的大段代码的函数的内部则尤为明显。

当你感觉自己的nonlocal语句开始变的复杂的时候,我非常建议你重构一下代码,写成一个工具类。这里,我定义了一个实现了与上面的那个函数功能相一致的工具类。虽然有点长,但是代码却变得更加的清晰了(详见第23项:对于简单接口使用函数而不是类里面的__call__方法)。

  1. class Sorter(object):
  2. def __init__(self, group):
  3. self.group = group
  4. self.found = False
  5. def __call__(self, x):
  6. if x in self.group:
  7. self.found = True
  8. return (0, x)
  9. return (1, x)
  10. sorter = Sorter(group)
  11. numbers.sort(key=sorter)
  12. assert sorter is True
  13. 复制代码
Python2中的作用域

不幸的是,Python2是不支持nonlocal关键字的。为了实现相似的功能,你需要广泛的借助于Python的作用与域规则。虽然这个方法并不是完美的,但是这是Python中比较常用的一种做法。

  1. # Python2
  2. def sort_priority(numbers, group):
  3. found = [False]
  4. def helper(x):
  5. if x in group:
  6. found[0] = True
  7. return (0, x)
  8. return (1, x)
  9. numbers.sort(sort=helper)
  10. return found[0]
  11. 复制代码

就像上面解释的那样,Python 将会横向查找该变量所在的域来分析其当前值。技巧就是发现的值是一个易变的列表。这意味着一旦检索,闭包就可以修改found的状态值,并且把内部数据的改变发送到外部,这也就打破了闭包引发的局部变量作用域无法被改变的难题。其根本还是在于列表本身元素值可以被改变,这才是此函数可以正常工作的关键。

found为一个dictionary类型的时候,也是可以正常工作的,原理与上文所言一致。此外,found还可以是一个集合,一个你自定义的类等等。

第16条: 考虑使用生成器而不是返回列表

备忘录
  • 相较于返回一个列表的情况,替代方案中使用生成器可以使得代码变得更加的清晰。
  • 生成器返回的迭代器,是在其生成器内部一个把值传递给了yield变量的集合。
  • 生成器可以处理很大的输出序列就是因为它在处理的时候不会完全的包含所有的数据。

考虑以下两种版本代码,一个用 **list **,另一个用 generator

  1. def index_words(text):
  2. result = []
  3. if text:
  4. result.append(0)
  5. for index, letter in enumerate(text):
  6. if letter == ' ':
  7. result.append(index + 1)
  8. return result
  9. address = 'Four score and seven years ago...'
  10. result = index_words(address)
  11. print(result[:3]) # [0, 5, 11]
  12. 复制代码

generator

  1. def index_words_iter(text):
  2. if text:
  3. yield 0
  4. for index, letter in enumerate(text):
  5. if letter == ' ':
  6. yield index + 1
  7. result = list(index_words_iter(address))
  8. 复制代码

使用 **generator ** 比较简单,减少了 list 操作

另一个 **generator **的好处是更有效率地使用记忆值,generator不需要有存全部的资料

  1. import itertools
  2. def index_file(handle):
  3. offset = 0
  4. for line in handle:
  5. if line:
  6. yield offset
  7. for letter in line:
  8. offset += 1
  9. if letter == ' ':
  10. yield offset
  11. with open('/tmp/address.txt', 'r') as f:
  12. it = index_file(f)
  13. results = itertools.islice(it, 0, 3)
  14. print(list(results))
  15. >>>
  16. [0, 5, 11]
  17. 复制代码

不管address.txt 多大都能处理

第17条: 遍历参数的时候小心一点

备忘录
  • 多次遍历输入参数的时候应该多加小心。如果参数是迭代器的话你可能看到奇怪的现象或者缺少值现象的发生。
  • Pythoniterator协议定义了容器和迭代器在iternext下对于循环和相关表达式的关系。
  • 只要实现了__iter__方法,你就可以很容易的定义一个可迭代的容器类。
  • 通过连续调用两次iter方法,你就可以预先检测一个值是不是迭代器而不是容器。两次结果一致那就是迭代器,否则就是容器了。

generator不能重用:

  1. def read_visits(data_path):
  2. with open(data_path,'r') as f:
  3. for line in f:
  4. yield int(line)
  5. it = read_visits('tmp/my_numbers.txt')
  6. print(list(it))
  7. print(list(it)) # 这里其实已经执行到头了
  8. >>>
  9. [15, 35, 80]
  10. []
  11. 复制代码

造成上述结果的原因是 一个迭代器每次只处理它本身的数据。如果你遍历一个迭代器或者生成器本身已经引发了一个StopIteration的异常,你就不可能获得任何数据了。

解决方案:

每次调用都创建iterator避免上面list分配内存

  1. def normalize_func(get_iter): # get_iter 是函数
  2. total = sum(get_iter()) # New iterator
  3. result = []
  4. for value in get_iter(): # New iterator
  5. percent = 100 * value / total
  6. result.append(percent)
  7. return result
  8. percentages = normalize_func(lambda: read_visits(path))
  9. 复制代码

for循环会调用内置iter函数,进而调用对象的__iter__方法,__iter__会返回iterator对象(实现__next__方法)

用iter函数检测iterator:

  1. def normalize_defensive(numbers):
  2. if iter(numbers) is iter(numbers): # 是个迭代器,这样不好
  3. raise TypeError('Must supply a container')
  4. total = sum(numbers)
  5. result = []
  6. for value in numbers:
  7. percent = 100 * value / total
  8. result.append(percent)
  9. return result
  10. visits = [15, 35, 80]
  11. normalize_defensive(visits)
  12. visits = ReadVIsitors(path)
  13. normalize_defensive(visits)
  14. # 但是如果输入值不是一个容器类的话,就会引发异常了
  15. it = iter(visits)
  16. normalize_defensive(it)
  17. >>>
  18. TypeError: Must supply a container
  19. 复制代码

第18条: 减少位置参数上的干扰

备忘录
  • 通过使用*args定义语句,函数可以接收可变数量的位置参数。
  • 你可以通过*操作符来将序列中的元素作为位置变量。
  • 带有*操作符的生成器变量可能会引起程序的内存溢出,或者机器宕机。
  • 为可以接受*args的函数添加新的位置参数可以产生难于发现的问题,应该谨慎使用。

举例:

  1. def log(message, values):
  2. if not values:
  3. print(message)
  4. else:
  5. values_str = ', '.join(str(x) for x in values)
  6. print('%s: %s' % (message, values_str))
  7. log('My numbers are', [1, 2])
  8. log('Hi there', [])
  9. 复制代码
  1. def log(message, *values):
  2. if not values:
  3. print(message)
  4. else:
  5. values_str = ', '.join(str(x) for x in values)
  6. print('%s: %s' % (message, values_str))
  7. log('My numbers are', 1, 2)
  8. log('Hi there')
  9. 复制代码

第二个就比第一个要更有弹性

不过传入生成器的时候,因为变长参数在传给函数的时候,总要先转换为元组,所以如果生成器迭代的数据很大的话,可能会导致程序崩溃

第19条: 使用关键字参数来提供可选行为

备忘录
  • 函数的参数值即可以通过位置被指定,也可以通过关键字来指定。
  • 相较于使用位置参数赋值,使用关键字来赋值会让你的赋值语句逻辑变得更加的清晰。
  • 带有默认参数的关键字参数函数可以很容易的添加新的行为,尤其适合向后兼容。
  • 可选的关键字参数应该优于位置参数被考虑使用。

关键字参数的好处:

  1. 代码可读性的提高
  2. 以在定义的时候初始化一个默认值
  3. 在前面的调用方式不变的情况下可以很好的拓展函数的参数,不用修改太多的代码

如果本來的函数如下

  1. def flow_rate(weight_diff, time_diff, period=1):
  2. return (weight_diff / time_diff) * period
  3. 复制代码

如果后来函数修改了

  1. def flow_rate(weight_diff, time_diff,
  2. period=1, units_per_kg=1):
  3. return ((weight_diff / units_per_kg) / time_diff) * period
  4. 复制代码

那么可以如下使用

  1. flow_per_second = flow_rate(weight_diff, time_diff)
  2. flow_per_hour = flow_rate(weight_diff, time_diff, period=3600)
  3. pounds_per_hour = flow_rate(weight_diff, time_diff, period=3600, units_per_kg=2.2)
  4. pounds_per_hour = flow_rate(weight_diff, time_diff, 3600, 2.2) # 不推荐
  5. 复制代码

第20条: 使用None和文档说明动态的指定默认参数

备忘录
  • 默认参数只会被赋值一次:在其所在模块被加载的过程中,这有可能导致一些奇怪的现象。
  • 使用None作为关键字参数的默认值会有一个动态值。要在该函数的说明文档中详细的记录一下。
第一个例子:

not:

  1. def log(message, when=datetime.now()):
  2. print(‘%s: %s’ % (when, message))
  3. log(‘Hi there!’)
  4. sleep(0.1)
  5. log(‘Hi again!’)
  6. >>>
  7. 2014-11-15 21:10:10.371432: Hi there!
  8. 2014-11-15 21:10:10.371432: Hi again!
  9. 复制代码

prefer:

  1. def log(message, when=None):
  2. """Log a message with a timestamp.
  3. Args:
  4. message: Message to print
  5. when: datetime of when the message occurred.
  6. Default to the present time.
  7. """
  8. when = datetime.now() if when is None else when
  9. print("%s: %s" %(when, message))
  10. # 测试
  11. log('Hi there!')
  12. sleep(0.1)
  13. log('Hi again!')
  14. >>>
  15. 2014-11-15 21:10:10.472303: Hi there!
  16. 2014-11-15 21:10:10.473395: Hi again!
  17. 复制代码

上述方法造成 when 第一次被赋值之后便不会再重新赋值

第二个例子:

not:

  1. def decode(data, default={}):
  2. try:
  3. return json.loads(data)
  4. except ValueError:
  5. return default
  6. foo = decode('bad data')
  7. foo['stuff'] = 5
  8. bar = decode('also bad')
  9. bar['meep'] = 1
  10. print('Foo:', foo)
  11. print('Bar:', bar)
  12. >>>
  13. Foo: {'stuff': 5, 'meep': 1}
  14. Bar: {'stuff': 5, 'meep': 1}
  15. 复制代码

prefer:

  1. def decode(data, default=None):
  2. """Load JSON data from string.
  3. Args:
  4. data: JSON data to be decoded.
  5. default: Value to return if decoding fails.
  6. Defaults to an empty dictionary.
  7. """
  8. if default is None:
  9. default = {}
  10. try:
  11. return json.loads(data)
  12. except ValueError:
  13. return default
  14. # 现在测试一下
  15. foo = decode('bad data')
  16. foo['stuff'] = 5
  17. bar = decode('also bad')
  18. bar['meep'] = 1
  19. print('Foo:', foo)
  20. print('Bar:', bar)
  21. >>>
  22. Foo: {'stuff': 5}
  23. Bar: {'meep': 1}
  24. 复制代码

第21条: 仅强调关键字参数

备忘录
  • 关键字参数使得函数调用的意图更加的清晰,明显。
  • 使用keyword-only参数可以强迫函数调用者提供关键字来赋值,这样对于容易使人疑惑的函数参数很有效,尤其适用于接收多个布尔变量的情况。
  • Python3中有明确的keyword-only函数语法。
  • Python2中可以通过**kwargs模拟实现keyword-only函数语法,并且人工的触发TypeError异常。
  • keyword-only在函数参数列表中的位置很重要,这点大家尤其应该明白!

下面的程式使用上不方便,因为容易忘记 ignore_overflow 和 ignore_zero_division 的顺序

  1. def safe_division(number, divisor, ignore_overflow,
  2. ignore_zero_division):
  3. try:
  4. return number / divisor
  5. except OverflowError:
  6. if ignore_overflow:
  7. return 0
  8. else:
  9. raise
  10. except ZeroDivisionError:
  11. if ignore_zero_division:
  12. return float('inf')
  13. else:
  14. raise
  15. result = safe_division(1, 10**500, True, False)
  16. result = safe_division(1, 0, False, True)
  17. 复制代码

用 keyword 引数可解決此问题,在 Python 3 可以宣告强制接收 keyword-only 参数。

下面定义的这个 safe_division_c 函数,带有两个只能以关键字形式来指定的参数。参数列表里面的 * 号,标志着位置参数就此终结,之后的那些参数,都只能以关键字的形式来指定

  1. def safe_division_c(number, divisor, *,
  2. ignore_overflow=False,
  3. ignore_zero_division=False):
  4. try:
  5. return number / divisor
  6. except OverflowError:
  7. if ignore_overflow:
  8. return 0
  9. else:
  10. raise
  11. except ZeroDivisionError:
  12. if ignore_zero_division:
  13. return float('inf')
  14. else:
  15. raise
  16. safe_division_c(1, 10**500, True, False)
  17. >>>
  18. TypeError: safe_division_c() takes 2 positional arguments but 4 were given
  19. safe_division(1, 0, ignore_zero_division=True) # OK
  20. ...
  21. 复制代码

Python 2 虽然没有这种语法,但可以用 ** 操作符模拟

注:* 操作符接收可变数量的位置参数,** 接受任意数量的关键字参数

  1. # Python 2
  2. def safe_division(number, divisor, **kwargs):
  3. ignore_overflow = kwargs.pop('ignore_overflow', False)
  4. ignore_zero_division = kwargs.pop('ignore_zero_division', False)
  5. if kwargs:
  6. raise TypeError("Unexpected **kwargs: %r"%kwargs)
  7. # ···
  8. # 测试
  9. safe_division(1, 10)
  10. safe_division(1, 0, ignore_zero_division=True)
  11. safe_division(1, 10**500, ignore_overflow=True)
  12. # 而想通过位置参数赋值,就不会正常的运行了
  13. safe_division(1, 0, False, True)
  14. >>>
  15. TypeError:safe_division() takes 2 positional arguments but 4 were given.
  16. 复制代码

三、类和继承

第22条: 尽量使用辅助类来维护程序的状态,避免dict嵌套dict或大tuple

备忘录
  • 避免字典中嵌套字典,或者长度较大的元组。
  • 在一个整类(类似于前面第一个复杂类那样)之前考虑使用 namedtuple 制作轻量,不易发生变化的容器。
  • 当内部的字典关系变得复杂的时候将代码重构到多个工具类中。

dictionaries 以及 tuples 拿來存简单的资料很方便,但是当资料越来越复杂时,例如多层 dictionaries 或是 n-tuples,程式的可读性就下降了。例如下面的程式:

  1. class SimpleGradebook(object):
  2. def __init__(self):
  3. self._grades = {}
  4. def add_student(self, name):
  5. self._grades[name] = []
  6. def report_grade(self, name, score):
  7. self._grades[name].append(score)
  8. def average_grade(self, name):
  9. grades = self._grades[name]
  10. return sum(grades) / len(grades)
  11. 复制代码

正是由于字典很容易被使用,以至于对字典过度的拓展会导致代码越来越脆弱。例如:你想拓展一下SimpleGradebook类来根据科目保存成绩的学生的集合,而不再是整体性的存储。你就可以通过修改_grade字典来匹配学生姓名,使用另一个字典来包含成绩。而最里面的这个字典将匹配科目(keys)和成绩(values)。你还想根据班级内总体的成绩来追踪每个门类分数所占的比重,所以期中,期末考试相比于平时的测验而言更为重要。实现这个功能的一个方式是改变最内部的那个字典,而不是让其关联着科目(key)和成绩(values)。我们可以使用元组(tuple)来作为成绩(values)。

  1. class WeightedGradebook(object):
  2. def __init__(self):
  3. self._grades = {}
  4. def add_student(self, name):
  5. self._grades[name] = {}
  6. def report_grade(self, name, subject, score, weight):
  7. by_subject = self._grades[name]
  8. grade_list = by_subject.setdefault(subject, [])
  9. grade_list.append((score, weight))
  10. def average_grade(self, name):
  11. by_subject = self._grades[name]
  12. score_sum, score_count = 0, 0
  13. for subject, scores in by_subject.items():
  14. subject_avg, total_weight = 0, 0
  15. for score, weight in scores:
  16. subject_avg += score * weight
  17. total_weight += weight
  18. score_sum += subject_avg / total_weight
  19. score_count += 1
  20. return score_sum / score_count
  21. 复制代码

这个类使用起来貌似也变的超级复杂了,并且每个位置参数代表了什么意思也不明不白的。

重构成多个类

你可以从依赖树的底端开始,将其划分成多个类:一个单独的成绩类好像对于如此一个简单的信息权重太大了。一个元组,使用元组似乎很合适,因为成绩是不会改变的了,这刚好符合元组的特性。这里,我使用一个元组(score, weight)来追踪列表中的成绩信息。

  1. import collections
  2. Grade = collections.namedtuple('Grade', ('score', 'weight'))
  3. class Subject(object):
  4. def __init__(self):
  5. self._grades = []
  6. def report_grade(self, score, weight):
  7. self._grades.append(Grade(score, weight))
  8. def average_grade(self):
  9. total, total_weight = 0, 0
  10. for grade in self._grades:
  11. total += grade.score * grade.weight
  12. total_weight += grade.weight
  13. return total / total_weight
  14. class Student(object):
  15. def __init__(self):
  16. self._subjects = {}
  17. def subject(self, name):
  18. if name not in self._subjects:
  19. self._subjects[name] = Subject()
  20. return self._subjects[name]
  21. def average_grade(self):
  22. total, count = 0, 0
  23. for subject in self._subjects.values():
  24. total += subject.average_grade()
  25. count += 1
  26. return total / count
  27. class Gradebook(object):
  28. def __init__(self):
  29. self._students = {}
  30. def student(self, name):
  31. if name not in self._students:
  32. self._students[name] = Student()
  33. return self._students[name]
  34. 复制代码

第23条: 对于简单接口使用函数而不是类的实例

备忘录
  • Python中,不需要定义或实现什么类,对于简单接口组件而言,函数就足够了。
  • Python中引用函数和方法的原因就在于它们是first-class,可以直接的被运用在表达式中。
  • 特殊方法__call__允许你像调用函数一样调用一个对象实例。
  • 当你需要一个函数来维护状态信息的时候,考虑一个定义了__call__方法的状态闭包类哦(详见第15项:了解闭包是怎样与变量作用域的联系)。

Python中的许多内置的API都允许你通过向函数传递参数来自定义行为。这些被API使用的hooks将会在它们运行的时候回调给你的代码。例如:list类型的排序方法中有一个可选的key 参数来决定排序过程中每个下标的值。这里,我使用一个lambda表达式作为这个键钩子,根据名字中字符的长度来为这个集合排序。

  1. names = ['Socrates', 'Archimedes', 'Plato', 'Aristotle']
  2. names.sort(key=lambda x: len(x))
  3. print(names)
  4. >>>
  5. ['Plato', Socrates', 'Aristotle', 'Archimedes']
  6. 复制代码

在其他的编程语言中,你可能期望一个抽象类作为这个hooks。但是在Python中,许多的hooks都是些无状态的有良好定义参数和返回值的函数。而对于hooks而言,使用函数是很理想的。因为更容易藐视,相对于类而言定义起来也更加的简单。函数可以作为钩子来工作是因为Pythonfirst-class函数:在编程的时候函数,方法可以像其他的变量值一样被引用,或者被传递给其他的函数。

Python允许类来定义__call__这个特殊的方法。它允许一个对象像被函数一样来被调用。这样的一个实例也引起了callable这个内True的事实。

  1. current = {'green': 12, 'blue': 3}
  2. incremetns = [
  3. ('red', 5),
  4. ('blue', 17),
  5. ('orange', 9)
  6. ]
  7. class BetterCountMissing(object):
  8. def __init__(self):
  9. self.added = 0
  10. def __call__(self):
  11. self.added += 1
  12. return 0
  13. counter = BetterCountMissing()
  14. counter()
  15. assert callable(counter)
  16. # 这里我使用一个BetterCountMissing实例作为defaultdict函数的默认的hook值来追踪缺省值被添加的次数。
  17. counter = BetterCountMissing()
  18. result = defaultdict(counter, current)
  19. for key, amount in increments:
  20. result[key] += amount
  21. assert counter.added == 2
  22. 复制代码

第24条: 使用@classmethod多态性构造对象

备忘录
  • Python的每个类只支持单个的构造方法,__init__
  • 使用@classmethod可以为你的类定义可替代构造方法的方法。
  • 类的多态为具体子类的组合提供了一种更加通用的方式。

使用 @classmethod起到多态的效果:一个对于分层良好的类树中,不同类之间相同名称的方法却实现了不同的功能的体现。

下面的函数 generate_inputs() 不够一般化,只能使用 PathInputData ,如果想使用其它 InputData 的子类,必须改变函数。

  1. class InputData(object):
  2. def read(self):
  3. raise NotImplementedError
  4. class PathInputData(InputData):
  5. def __init__(self, path):
  6. super().__init__()
  7. self.path = path
  8. def read(self):
  9. return open(self.path).read()
  10. def generate_inputs(data_dir):
  11. for name in os.listdir(data_dir):
  12. yield PathInputData(os.path.join(data_dir, name))
  13. 复制代码

问题在于建立 InputData 子类的物件不够一般化,如果你想要编写另一个 InputData 的子类就必须重写 read 方法幸好有 @classmethod,可以达到一样的效果。

  1. class GenericInputData(object):
  2. def read(self):
  3. raise NotImplementedError
  4. @classmethod
  5. def generate_inputs(cls, config):
  6. raise NotImplementedError
  7. class PathInputData(GenericInputData):
  8. def __init__(self, path):
  9. super().__init__()
  10. self.path = path
  11. def read(self):
  12. return open(self.path).read()
  13. @classmethod
  14. def generate_inputs(cls, config):
  15. data_dir = config['data_dir']
  16. for name in os.listdir(data_dir):
  17. yield cls(os.path.join(data_dir, name))
  18. 复制代码

第25条: 使用super关键字初始化父类

备忘录
  • Python的解决实例化次序问题的方法MRO解决了菱形继承中超类多次被初始化的问题。
  • 总是应该使用super来初始化父类。

先看一个还行的例子:

  1. class MyBaseClass(object):
  2. def __init__(self, value):
  3. self.value = value
  4. class TimesTwo(object):
  5. def __init__(self):
  6. self.value *= 2
  7. class PlusFive(object):
  8. def __init__(self):
  9. self.value += 5
  10. # 多继承实例,注意继承的次序哦
  11. class OneWay(MyBaseClass, TimesTwo, PlusFive):
  12. def __init__(self, value):
  13. MyBaseClass.__init__(self, value)
  14. TimesTwo.__init__(self)
  15. PlusFive.__init__(self)
  16. foo = OneWay(5)
  17. print("First ordering is ( 5 * 2 ) + 5 = ", foo.value)
  18. >>>
  19. First ordering is (5 * 2 ) + 2 = 15
  20. 复制代码

不使用 **super() **在多重继承时可能会造成意想不到的问题,下面的程式造成所谓的 **diamond inheritance **。

  1. class MyBaseClass(object):
  2. def __init__(self, value):
  3. self.value = value
  4. class TimesFive(MyBaseClass):
  5. def __init__(self, value):
  6. MyBaseClass.__init__(self, value)
  7. self.value *= 5
  8. class PlusTwo(MyBaseClass):
  9. def __init__(self, value):
  10. MyBaseClass.__init__(self, value)
  11. self.value += 2
  12. class ThisWay(TimesFive, PlusTwo):
  13. def __init__(self, value):
  14. TimesFive.__init__(self, value)
  15. PlusTwo.__init__(self, value)
  16. # 测试
  17. foo = ThisWay(5)
  18. print('Should be (5 * 5) + 2 = 27 but is', foo.value)
  19. >>>
  20. Should be (5 * 5) + 2 = 27 but is 7
  21. 复制代码

注:foo.value 的值是 7 ,而不是 27。因为 PlusTwo.__init__(self, value) 将值重设为 5 了。

使用 super()可以正确得到 27

  1. # 现在,菱形继承的超类,也就是最顶上的那个`MyBaseClass`只会被初始化一次,而其他的两个父类会按照被声明的顺序来初始化了。
  2. class GoodWay(TimesFiveCorrect, PlusTwoCorrect):# Python 2
  3. class MyBaseClass(object):
  4. def __init__(self, value):
  5. self.value = value
  6. class TimesFiveCorrect(MyBaseClass):
  7. def __init__(self, value):
  8. super(TimesFiveCorrect, self).__init__(value)
  9. self.value *= 5
  10. class PlusTwoCorrect(MyBaseClass):
  11. def __init__(self, value):
  12. super(PlusTwoCorrect, self).__init__(value)
  13. self.value += 2
  14. class GoodWay(PlusTwoCorrect, TimesFiveCorrect):
  15. def __init__(self, value):
  16. super(GoodWay, self).__init__(value)
  17. foo = GoodWay(5)
  18. print("Should be 5 * (5 + 2) = 35 and is " , foo.value)
  19. >>>
  20. Should be 5 * (5 + 2) = 35 and is 35
  21. 复制代码

python中父类实例化的规则是按照MRO标准来进行的,MRO 的执行顺序是 DFS

  1. # Python 2
  2. from pprint import pprint
  3. pprint(GoodWay.mro())
  4. >>>
  5. [<class '__main__.GoodWay'>,
  6. <class '__main__.TimesFiveCorrect'>,
  7. <class '__main__.PlusTwoCorrect'>,
  8. <class '__main__.MyBaseClass'>,
  9. <class 'object'>]
  10. 复制代码

最开始初始化GoodWay的时候,程序并没有真正的执行,而是走到这条继承树的树根,从树根往下才会进行初始化。于是我们会先初始化MyBaseClassvalue5,然后是PlusTwoCorrectvalue会变成7,接着TimesFiveCorrectvalue就自然的变成35了。

Python 3 简化了 **super() **的使用方式

  1. class Implicit(MyBaseClass):
  2. def __init__(self, value):
  3. super().__init__(value * 2)
  4. 复制代码

第26条: 只在用编写Max-in组件的工具类的时候使用多继承

备忘录
  • 如果可以使用mix-in实现相同的结果输出的话,就不要使用多继承了。
  • mix-in类需要的时候,在实例级别上使用可插拔的行为可以为每一个自定义的类工作的更好。
  • 从简单的行为出发,创建功能更为灵活的mix-in

如果你发现自己渴望随继承的便利和封装,那么考虑mix-in吧。它是一个只定义了几个类必备功能方法的很小的类。Mix-in类不定义以自己的实例属性,也不需要它们的初始化方法__init__被调用。Mix-in可以被分层和组织成最小化的代码块,方便代码的重用。

mix-in 是可以替换的 class ,通常只定义 methods ,虽然本质上上还是通过继承的方式,但因为 mix-in 沒有自己的 state ,也就是说沒有定义 attributes ,使用上更有弹性。

范例1:

注:hasattr 函数动态访问属性,isinstance 函数动态检测对象类型

  1. import json
  2. class ToDictMixin(object):
  3. def to_dict(self):
  4. return self._traverse_dict(self.__dict__)
  5. def _traverse_dict(self, instance_dict):
  6. output = {}
  7. for key, value in instance_dict.items():
  8. output[key] = self._traverse(key, value)
  9. return output
  10. def _traverse(self, key, value):
  11. if isinstance(value, ToDictMixin):
  12. return value.to_dict()
  13. elif isinstance(value, dict):
  14. return self._traverse_dict(value)
  15. elif isinstance(value, list):
  16. return [self._traverse(key, i) for i in value]
  17. elif hasattr(value, '__dict__'):
  18. return self._traverse_dict(value.__dict__)
  19. else:
  20. return value
  21. 复制代码

使用示例:

  1. class BinaryTree(ToDIctMixin):
  2. def __init__(self, value, left=None, right=None):
  3. self.value = value
  4. self.left = left
  5. self.right = right
  6. # 这下把大量的Python对象转换到一个字典中变得容易多了。
  7. tree = BinaryTree(10, left=BinaryTree(7, right=BinaryTree(9)),
  8. right=BinaryTree(13, left=BinaryTree(11)))
  9. print(tree.to_dict())
  10. >>>
  11. {'left': {'left': None,
  12. 'right': {'left': None, 'right': None, 'value': 9},
  13. 'value': 7},
  14. 'right': {'left': {'left': None, 'right': None, 'value': 11},
  15. 'right': None,
  16. 'value': 13},
  17. 'value': 10
  18. }
  19. 复制代码

范例2:

  1. # 在这个例子中,唯一的必须条件就是类中必须有一个to_dict方法和接收关键字参数的__init__构造方法
  2. class JsonMixin(object):
  3. @classmethod
  4. def from_json(cls, data):
  5. kwargs = json.loads(data)
  6. return cls(**kwargs)
  7. def to_json(self):
  8. return json.dumps(self.to_dict())
  9. class DatacenterRack(ToDictMixin, JsonMixin):
  10. def __init__(self, switch=None, machines=None):
  11. self.switch = Switch(**switch)
  12. self.machines = [Machine(**kwargs) for kwargs in machines]
  13. class Switch(ToDictMixin, JsonMixin):
  14. def __init__(self, ports=None, speed=None):
  15. self.ports = ports
  16. self.speed = speed
  17. class Machine(ToDictMixin, JsonMixin):
  18. def __init__(self, cores=None, ram=None, disk=None):
  19. self.cores = cores
  20. self.ram = ram
  21. self.disk = disk
  22. # 将这些类从JSON传中序列化也是简单的。这里我校验了一下,保证数据可以在序列化和反序列化正常的转换。
  23. serialized = """{
  24. "switch": {"ports": 5, "speed": 1e9},
  25. "machines": [
  26. {"cores": 8, "ram": 32e9, "disk": 5e12},
  27. {"cores": 4, "ram": 16e9, "disk": 1e12},
  28. {"cores": 2, "ram": 4e9, "disk": 500e9}
  29. ]
  30. }"""
  31. deserialized = DatacenterRack.from_json(serialized)
  32. roundtrip = deserialized.to_json()
  33. assert json.loads(serialized) == json.loads(roundtrip)
  34. 复制代码

第27条: 多使用公共属性,而不是私有属性

备忘录
  • Python 编译器无法严格保证 private 字段的私密性
  • 不要盲目将属性设置为 private,而是应该从一开始就做好规划,并允子类更多地访问超类的内部的API
  • 应该多用 protected 属性,并且在文档中把这些字段的合理用法告诉子类的开发者,而不要试图用 private 属性来限制子类的访问
  • 只有当子类不受自己控制的收,才可以考虑使用 private 属性来避免名称冲突

Python 里面沒有真正的 "private variable",想存取都可以存取得到。

下面的程式看起來我们没办法得到 __private_field

  1. class MyObject(object):
  2. def __init__(self):
  3. self.public_field = 5
  4. self.__private_field = 10
  5. def get_private_field(self):
  6. return self.__private_field
  7. foo = MyObject()
  8. print(foo.__private_field) # AttributeError
  9. 复制代码

但其实只是名称被改掉而已

  1. print(foo.__dict__)
  2. # {'_MyObject__private_field': 10, 'public_field': 5}
  3. print(foo._MyObject__private_field)
  4. 复制代码

一般来说 Python 惯例是在变数前加一个底线代表 **protected variable **,作用在于提醒开发者使用上要注意。

  1. class MyClass(object):
  2. def __init__(self, value):
  3. # This stores the user-supplied value for the object.
  4. # It should be coercible to a string. Once assigned for
  5. # the object it should be treated as immutable.
  6. self._value = value
  7. def get_value(self):
  8. return str(self._value)
  9. class MyIntegerSubclass(MyClass):
  10. def get_value(self):
  11. return self._value
  12. foo = MyIntegerSubclass(5)
  13. assert foo.get_value() == 5
  14. 复制代码

双底线的命名方式是为了避免父类和子类间的命名冲突,除此之外尽量避免使用这种命名。

第28条:自定义容器类型要从collections.abc来继承

备忘录
  • 如果要定制的子类比较简单,那就可以直接从Python的容器类型(如list或dict)中继承
  • 想正确实现自定义的容器类型,可能需要编写大量的特殊方法
  • 编写自制的容器类型时,可以从collection.abc 模块的抽象类基类中继承,那些基类能确保我们的子类具备适当的接口及行为

collections.abc 里面的 abstract classes 的作用是让开发者方便地开发自己的 container ,例如 list。一般情況下继承list 就ok了,但是当结构比较复杂的时候就需要自己自定义,例如 list 有许多 方法,要一一实现有点麻烦。

下面程式中 SequenceNode 是想要拥有 list 功能的 binary tree。

  1. class BinaryNode(object):
  2. def __init__(self, value, left=None, right=None):
  3. self.value = value
  4. self.left = left
  5. self.right = right
  6. class IndexableNode(BinaryNode):
  7. def _search(self, count, index):
  8. found = None
  9. if self.left:
  10. found, count = self.left._search(count, index)
  11. if not found and count == index:
  12. found = self
  13. else:
  14. count += 1
  15. if not found and self.right:
  16. found, count = self.right._search(count, index)
  17. return found, count
  18. def __getitem__(self, index):
  19. found, _ = self._search(0, index)
  20. if not found:
  21. raise IndexError('Index out of range')
  22. return found.value
  23. class SequenceNode(IndexableNode):
  24. def __len__(self):
  25. _, count = self._search(0, None)
  26. return count
  27. 复制代码

以下是 SequenceNode的一些 list 常用的操作

  1. tree = SequenceNode(
  2. 10,
  3. left=SequenceNode(
  4. 5,
  5. left=SequenceNode(2),
  6. right=SequenceNode(
  7. 6,
  8. right=SequenceNode(7))),
  9. right=SequenceNode(
  10. 15,
  11. left=SequenceNode(11)))
  12. print('Index 0 =', tree[0])
  13. print('11 in the tree?', 11 in tree)
  14. print('Tree has %d nodes' % len(tree))
  15. >>>
  16. Index 0 = 2
  17. 11 in the tree? True
  18. Tree has 7 nodes
  19. 复制代码

但是使用者可能想使用像 count()以及 index()等 list 的 方法 ,这时候可以使用 collections.abc的 **Sequence **。子类只要实现 __getitem__以及 __len__, **Sequence **以及提供count()以及 index()了,而且如果子类没有实现类似 Sequence 的抽象基类所要求的每个方法,collections.abc 模块就会指出这个错误。

  1. from collections.abc import Sequence
  2. class BetterNode(SequenceNode, Sequence):
  3. pass
  4. tree = BetterNode(
  5. # ...
  6. )
  7. print('Index of 7 is', tree.index(7))
  8. print('Count of 10 is', tree.count(10))
  9. >>>
  10. Index of 7 is 3
  11. Count of 10 is 1
  12. 复制代码

四、元类和属性

第29条: 用纯属性取代 get 和 set 方法

备忘录
  • 使用public属性避免set和get方法,@property定义一些特别的行为
  • 如果访问对象的某个属性的时候,需要表现出特殊的行为,那就用@property来定义这种行为
  • @property 方法应该遵循最小惊讶原则,而不应该产生奇怪的副作用
  • 确保@property方法是快速的,如果是慢或者复杂的工作应该放在正常的方法里面

示例1:

不要把 java 的那一套 getter 和 setter 带进来

not:

  1. class OldResistor(object):
  2. def __init__(self, ohms):
  3. self._ohms = ohms
  4. def get_ohms(self):
  5. return self._ohms
  6. def set_ohms(self, ohms):
  7. self._ohms = ohms
  8. 复制代码

prefer:

  1. class Resistor(object):
  2. def __init__(self, ohms):
  3. self.ohms = ohms
  4. self.voltage = 0
  5. self.current = 0
  6. 复制代码

示例2:

使用@property,来绑定一些特殊操作,但是不要产生奇怪的副作用,比如在getter里面做一些赋值的操作

  1. class VoltageResistance(Resistor):
  2. def __init__(self, ohms):
  3. super().__init__(ohms)
  4. self._voltage = 0
  5. # 相当于 getter
  6. @property
  7. def voltage(self):
  8. return self._voltage
  9. # 相当于 setter
  10. @voltage.setter
  11. def voltage(self, voltage):
  12. self._voltage = voltage
  13. self.current = self._voltage / self.ohms
  14. r2 = VoltageResistance(1e3)
  15. print('Before: %5r amps' % r2.current)
  16. # 会执行 setter 方法
  17. r2.voltage = 10
  18. print('After: %5r amps' % r2.current)
  19. 复制代码

第30条: 考虑@property来替代属性重构

备忘录
  • 使用@property给已有属性扩展新需求
  • 可以用 @property 来逐步完善数据模型
  • 当@property太复杂了才考虑重构

@property可以把简单的数值属性迁移为实时计算,只定义 getter 不定义 setter 那么就是一个只读属性

  1. class Bucket(object):
  2. def __init__(self, period):
  3. self.period_delta = timedelta(seconds=period)
  4. self.reset_time = datetime.now()
  5. self.max_quota = 0
  6. self.quota_consumed = 0
  7. def __repr__(self):
  8. return ('Bucket(max_quota=%d, quota_consumed=%d)' %
  9. (self.max_quota, self.quota_consumed))
  10. @property
  11. def quota(self):
  12. return self.max_quota - self.quota_consumed
  13. @quota.setter
  14. def quota(self, amount):
  15. delta = self.max_quota - amount
  16. if amount == 0:
  17. # Quota being reset for a new period
  18. self.quota_consumed = 0
  19. self.max_quota = 0
  20. elif delta < 0:
  21. # Quota being filled for the new period
  22. assert self.quota_consumed = 0
  23. self.max_quota = amount
  24. else:
  25. # Quota being consumed during the period
  26. assert self.max_quota >= self,quota_consumed
  27. self.quota_consumed += delta
  28. 复制代码

这种写法的好处就在于:从前使用的Bucket.quota 的那些旧代码,既不需要做出修改,也不需要担心现在的Bucket类是如何实现的,可以轻松无痛扩展新功能。但是@property也不能滥用,而且@property的一个缺点就是无法被复用,同一套逻辑不能在不同的属性之间重复使用如果不停的编写@property方法,那就意味着当前这个类的代码写的确实很糟糕,此时应该重构了。

TODO

第31条: 用描述符来改写需要复用的 @property 方法

备忘录
  • 如果想复用 @property 方法及其验证机制,那么可以自定义描述符类

  • WeakKeyDictionary 可以保证描述符类不会泄露内存

  • 通过描述符协议来实现属性的获取和设置操作时,不要纠结于__getatttttribute__ 的方法的具体运作细节

property最大的问题是可能造成 duplicated code 这种 code smell。

下面的程式 math_grade以及 math_grade就有这样的问题。

  1. class Exam(object):
  2. def __init__(self):
  3. self._writing_grade = 0
  4. self._math_grade = 0
  5. @staticmethod
  6. def _check_grade(value):
  7. if not (0 <= value <= 100):
  8. raise ValueError('Grade must be between 0 and 100')
  9. @property
  10. def writing_grade(self):
  11. return self._writing_grade
  12. @writing_grade.setter
  13. def writing_grade(self, value):
  14. self._check_grade(value)
  15. self._writing_grade = value
  16. @property
  17. def math_grade(self):
  18. return self._math_grade
  19. @math_grade.setter
  20. def math_grade(self, value):
  21. self._check_grade(value)
  22. self._math_grade = value
  23. 复制代码

可以使用 **descriptor **解決,下面的程式将重复的逻辑封装在 Grade 里面。但是這个程式根本 **不能用 **,因为存取到的是 class attributes,例如 exam.writing_grade = 40其实是Exam.__dict__['writing_grade'].__set__(exam, 40),这样所有 Exam 的 instances 都是存取到一样的东西 ( Grade())。

  1. class Grade(object):
  2. def __init__(self):
  3. self._value = 0
  4. def __get__(self, instance, instance_type):
  5. return self._value
  6. def __set__(self, instance, value):
  7. if not (0 <= value <= 100):
  8. raise ValueError('Grade must be between 0 and 100')
  9. self._value = value
  10. class Exam(object):
  11. math_grade = Grade()
  12. writing_grade = Grade()
  13. science_grade = Grade()
  14. exam = Exam()
  15. exam.writing_grade = 40
  16. 复制代码

解決方式是用个 dictionary 存起來,这里使用 WeakKeyDictionary避免 memory leak。

  1. from weakref import WeakKeyDictionary
  2. class Grade(object):
  3. def __init__(self):
  4. self._values = WeakKeyDictionary()
  5. def __get__(self, instance, instance_type):
  6. if instance is None: return self
  7. return self._values.get(instance, 0)
  8. def __set__(self, instance, value):
  9. if not (0 <= value <= 100):
  10. raise ValueError('Grade must be between 0 and 100')
  11. self._values[instance] = value
  12. 复制代码

第32条: 用 __getattr__, __getattribute__, 和__setattr__ 实现按需生产的属性

备忘录
  • 通过__getttattr____setattr__,我们可以用惰性的方式来加载并保存对象的属性
  • 要理解 __getattr____getattribute__ 的区别:前者只会在待访问的属性缺失时触发,而后者则会在每次访问属性的时候触发
  • 如果要在__getattributte____setattr__ 方法中访问实例属性,那么应该直接通过 super() 来做,以避免无限递归
  • obj.name,getattr和hasattr都会调用__getattribute__方法,如果name不在obj.__dict__里面,还会调用__getattr__方法,如果没有自定义__getattr__方法会AttributeError异常
  • 只要有赋值操作(=,setattr)都会调用__setattr__方法(包括a = A())

__getattr____getattribute__都可以动态地存取 attributes ,不同点在于如果 __dict__找不到才会呼叫 __getattr__,而 __getattribute__每次都会被呼叫到。

  1. class LazyDB(object):
  2. def __init__(self):
  3. self.exists = 5
  4. def __getattr__(self, name):
  5. value = 'Value for %s' % name
  6. setattr(self, name, value)
  7. return value
  8. class LoggingLazyDB(LazyDB):
  9. def __getattr__(self, name):
  10. print('Called __getattr__(%s)' % name)
  11. return super().__getattr__(name)
  12. data = LoggingLazyDB()
  13. print('exists:', data.exists)
  14. print('foo: ', data.foo)
  15. print('foo: ', data.foo)
  16. 复制代码
  1. class ValidatingDB(object):
  2. def __init__(self):
  3. self.exists = 5
  4. def __getattribute__(self, name):
  5. print('Called __getattribute__(%s)' % name)
  6. try:
  7. return super().__getattribute__(name)
  8. except AttributeError:
  9. value = 'Value for %s' % name
  10. setattr(self, name, value)
  11. return value
  12. data = ValidatingDB()
  13. print('exists:', data.exists)
  14. print('foo: ', data.foo)
  15. print('foo: ', data.foo)
  16. 复制代码

可以控制什么 attributes 不应该被使用到,记得要丟 **AttributeError **。

  1. try:
  2. class MissingPropertyDB(object):
  3. def __getattr__(self, name):
  4. if name == 'bad_name':
  5. raise AttributeError('%s is missing' % name)
  6. value = 'Value for %s' % name
  7. setattr(self, name, value)
  8. return value
  9. data = MissingPropertyDB()
  10. data.foo # Test this works
  11. data.bad_name
  12. except:
  13. logging.exception('Expected')
  14. else:
  15. assert False
  16. 复制代码

__setattr__每次都会被呼叫到。

  1. class SavingDB(object):
  2. def __setattr__(self, name, value):
  3. # Save some data to the DB log
  4. pass
  5. super().__setattr__(name, value)
  6. class LoggingSavingDB(SavingDB):
  7. def __setattr__(self, name, value):
  8. print('Called __setattr__(%s, %r)' % (name, value))
  9. super().__setattr__(name, value)
  10. 复制代码

很重要的一点是 __setattr__以及 __getattribute__一定要呼叫父类的 __getattribute__,避免无限循环下去。

这个会爆掉,因为存取 self._data又会呼叫 __getattribute__

  1. class BrokenDictionaryDB(object):
  2. def __init__(self, data):
  3. self._data = {}
  4. def __getattribute__(self, name):
  5. print('Called __getattribute__(%s)' % name)
  6. return self._data[name]
  7. 复制代码

呼叫 super().__getattribute__('_data')

  1. class DictionaryDB(object):
  2. def __init__(self, data):
  3. self._data = data
  4. def __getattribute__(self, name):
  5. data_dict = super().__getattribute__('_data')
  6. return data_dict[name]
  7. 复制代码

第33条: 用元类来验证子类

备忘录
  • 通过元类,我们可以在生成子类对象之前,先验证子类的定义是否合乎规范
  • Python2 和 Python3 指定元类的语法略有不同
  • 使用元类对类型对象进行验证
  • Python 系统把子类的整个 class 语句体处理完毕之后,就会调用其元类的__new__ 方法

第34条: 用元类来注册子类

备忘录
  • 在构建模块化的 Python 程序时候,类的注册是一种很有用的模式
  • 开发者每次从基类中继承子类的时,基类的元类都可以自动运行注册代码
  • 通过元类来实现类的注册,可以确保所有子类都不会泄露,从而避免后续的错误

首先,定义元类,我们要继承 type, python 默认会把那些类的 class 语句体中所含的相关内容,发送给元类的 new 方法。

  1. class Meta(type):
  2. def __new__(meta, name, bases, class_dict):
  3. print(meta, name, bases, class_dict)
  4. return type.__new__(meta, name, bases, class_dict)
  5. # 这是 python2 写法
  6. class MyClassInPython2(object):
  7. __metaclass__ = Meta
  8. stuff = 123
  9. def foo(self):
  10. pass
  11. # python 3
  12. class MyClassInPython3(object, metaclass=Meta):
  13. stuff = 123
  14. def foo(self):
  15. pass
  16. class ValidatePolygon(type):
  17. def __new__(meta, name, bases, class_dict):
  18. # Don't validate the abstract Polygon class
  19. if bases != (object,):
  20. if class_dict['sides'] < 3:
  21. raise ValueError('Polygons need 3+ sides')
  22. return type.__new__(meta, name, bases, class_dict)
  23. class Polygon(object, metaclass=ValidatePolygon):
  24. sides = None # Specified by subclasses
  25. @classmethod
  26. def interior_angles(cls):
  27. return (cls.sides - 2) * 180
  28. class Triangle(Polygon):
  29. sides = 3
  30. print(Triangle.interior_angles())
  31. 复制代码

第35: 用元类来注解类的属性

备忘录
  • 借助元类,我们可以在某个类完全定义好之前,率先修改该类的属性
  • 描述符与元类能够有效的组合起来,以便对某种行为做出修饰,或者在程序运行时探查相关信息
  • 如果把元类与描述符相结合,那就可以在不使用 weakerf 模块的前提下避免内存泄露

五、并行与并发

第36条: 用 subprocess 模块来管理子进程

备忘录
  • 使用 subprocess 模块运行子进程管理自己的输入和输出流
  • subprocess 可以并行执行最大化CPU的使用
  • communicate 的 timeout 参数避免死锁和被挂起的子进程

最基本的

  1. import subprocess
  2. proc = subprocess.Popen(
  3. ['echo', 'Hello from the child!'],
  4. stdout=subprocess.PIPE)
  5. out, err = proc.communicate()
  6. print(out.decode('utf-8'))
  7. 复制代码

传入资料

  1. import os
  2. def run_openssl(data):
  3. env = os.environ.copy()
  4. env['password'] = b'\xe24U\n\xd0Ql3S\x11'
  5. proc = subprocess.Popen(
  6. ['openssl', 'enc', '-des3', '-pass', 'env:password'],
  7. env=env,
  8. stdin=subprocess.PIPE,
  9. stdout=subprocess.PIPE)
  10. proc.stdin.write(data)
  11. proc.stdin.flush() # Ensure the child gets input
  12. return proc
  13. def run_md5(input_stdin):
  14. proc = subprocess.Popen(
  15. ['md5'],
  16. stdin=input_stdin,
  17. stdout=subprocess.PIPE)
  18. return proc
  19. 复制代码

模擬 pipes

  1. input_procs = []
  2. hash_procs = []
  3. for _ in range(3):
  4. data = os.urandom(10)
  5. proc = run_openssl(data)
  6. input_procs.append(proc)
  7. hash_proc = run_md5(proc.stdout)
  8. hash_procs.append(hash_proc)
  9. for proc in input_procs:
  10. proc.communicate()
  11. for proc in hash_procs:
  12. out, err = proc.communicate()
  13. print(out.strip())
  14. 复制代码

第37条: 可以用线程来执行阻塞时I/O,但不要用它做平行计算

备忘录
  • 因为GIL,Python thread并不能并行运行多段代码
  • Python保留thread的两个原因:1.可以模拟多线程,2.多线程可以处理I/O阻塞的情况
  • Python thread可以并行执行多个系统调用,这使得程序能够在执行阻塞式I/O操作的同时,执行一些并行计算

第38条: 在线程中使用Lock来防止数据竞争

备忘录
  • 虽然Python thread不能同时执行,但是Python解释器还是会打断操作数据的两个字节码指令,所以还是需要锁
  • thread模块的Lock类是Python的互斥锁实现

比较有趣的是 **Barrier **這个 Python 3.2 才加进来的东西,以前要用 **Semaphore **來做。

  1. from threading import Barrier
  2. from threading import Thread
  3. from threading import Lock
  4. class LockingCounter(object):
  5. def __init__(self):
  6. self.lock = Lock()
  7. self.count = 0
  8. def increment(self, offset):
  9. with self.lock:
  10. self.count += offset
  11. class LockingCounter(object):
  12. def __init__(self):
  13. self.lock = Lock()
  14. self.count = 0
  15. def increment(self, offset):
  16. with self.lock:
  17. self.count += offset
  18. def worker(sensor_index, how_many, counter):
  19. # I have a barrier in here so the workers synchronize
  20. # when they start counting, otherwise it's hard to get a race
  21. # because the overhead of starting a thread is high.
  22. BARRIER.wait()
  23. for _ in range(how_many):
  24. # Read from the sensor
  25. counter.increment(1)
  26. def run_threads(func, how_many, counter):
  27. threads = []
  28. for i in range(5):
  29. args = (i, how_many, counter)
  30. thread = Thread(target=func, args=args)
  31. threads.append(thread)
  32. thread.start()
  33. for thread in threads:
  34. thread.join()
  35. BARRIER = Barrier(5)
  36. counter = LockingCounter()
  37. run_threads(worker, how_many, counter)
  38. print('Counter should be %d, found %d' %
  39. (5 * how_many, counter.count))
  40. 复制代码

第39条: 用 Queue 来协调各线程之间的工作

备忘录
  • 管线是一种优秀的任务处理方式,它可以把处理流程划分为若干阶段,并使用多条Python线程同时执行这些任务
  • 构建并发式的管线时,要注意许多问题,包括:如何防止某个阶段陷入持续等待的状态之中、如何停止工作线程,以及如何防止内存膨胀等
  • Queue类具备构建健壮并发管道的特性:阻塞操作,缓存大小和连接(join)
  1. from queue import Queue
  2. from threading import Thread
  3. class ClosableQueue(Queue):
  4. SENTINEL = object()
  5. def close(self):
  6. self.put(self.SENTINEL)
  7. def __iter__(self):
  8. while True:
  9. item = self.get()
  10. try:
  11. if item is self.SENTINEL:
  12. return # Cause the thread to exit
  13. yield item
  14. finally:
  15. self.task_done()
  16. class StoppableWorker(Thread):
  17. def __init__(self, func, in_queue, out_queue):
  18. super().__init__()
  19. self.func = func
  20. self.in_queue = in_queue
  21. self.out_queue = out_queue
  22. def run(self):
  23. for item in self.in_queue:
  24. result = self.func(item)
  25. self.out_queue.put(result)
  26. def download(item):
  27. return item
  28. def resize(item):
  29. return item
  30. def upload(item):
  31. return item
  32. download_queue = ClosableQueue()
  33. resize_queue = ClosableQueue()
  34. upload_queue = ClosableQueue()
  35. done_queue = ClosableQueue()
  36. threads = [
  37. StoppableWorker(download, download_queue, resize_queue),
  38. StoppableWorker(resize, resize_queue, upload_queue),
  39. StoppableWorker(upload, upload_queue, done_queue),
  40. ]
  41. for thread in threads:
  42. thread.start()
  43. for _ in range(1000):
  44. download_queue.put(object())
  45. download_queue.close()
  46. download_queue.join()
  47. resize_queue.close()
  48. resize_queue.join()
  49. upload_queue.close()
  50. upload_queue.join()
  51. print(done_queue.qsize(), 'items finished')
  52. 复制代码

第40条: 考虑用协程来并发地运行多个函数

备忘录
  • 线程有三个大问题:

    • 需要特定工具去确定安全性
    • 单个线程需要8M的内存
    • 线程启动消耗
  • coroutine只有1kb的内存消耗

  • generator可以通过send方法把值传递给yield

    1. def my_coroutine():
    2. while True:
    3. received = yield
    4. print("Received:", received)
    5. it = my_coroutine()
    6. next(it)
    7. it.send("First")
    8. ('Received:', 'First')
    9. 复制代码
  • Python2不支持直接yield generator,可以使用for循环yield

第41条: 考虑用 concurrent.futures 来实现真正的并行计算

备忘录
  • CPU瓶颈模块使用C扩展
  • concurrent.futures的multiprocessing可以并行处理一些任务,Python2没有这个模块
  • multiprocessing 模块所提供的那些高级功能,都特别复杂,开发者尽量不要直接使用它们

使用 concurrent.futures 里面的 **ProcessPoolExecutor **可以很简单地平行处理 CPU-bound 的程式,省得用 multiprocessing 自定义。

  1. from concurrent.futures import ProcessPoolExecutor
  2. start = time()
  3. pool = ProcessPoolExecutor(max_workers=2) # The one change
  4. results = list(pool.map(gcd, numbers))
  5. end = time()
  6. print('Took %.3f seconds' % (end - start))
  7. 复制代码

六、内置模块

第42条: 用 functools.wraps 定义函数修饰器

备忘录
  • 装饰器可以对函数进行封装,但是会改变函数信息

  • 使用 functools 的 warps 可以解决这个问题

    1. def trace(func):
    2. @wraps(func)
    3. def wrapper(*args, **kwargs):
    4. # …
    5. return wrapper
    6. @trace
    7. def fibonacci(n):
    8. # …
    9. 复制代码

第43条: 考虑用 contextlib 和with 语句来改写可复用的 try/finally 代码

备忘录
  • 使用with语句代替try/finally,增加代码可读性
  • 使用 contextlib 提供的 contextmanager 装饰函数就可以被 with 使用
  • with 和 yield 返回值使用

contextlib.contextmanager,方便我们在做 **context managers **。

  1. from contextlib import contextmanager
  2. @contextmanager
  3. def log_level(level, name):
  4. logger = logging.getLogger(name)
  5. old_level = logger.getEffectiveLevel()
  6. logger.setLevel(level)
  7. try:
  8. yield logger
  9. finally:
  10. logger.setLevel(old_level)
  11. with log_level(logging.DEBUG, 'my-log') as logger:
  12. logger.debug('This is my message!')
  13. logging.debug('This will not print')
  14. logger = logging.getLogger('my-log')
  15. logger.debug('Debug will not print')
  16. logger.error('Error will print')
  17. 复制代码

第44条: 用 copyreg 实现可靠的 pickle 操作

备忘录
  • pickle 模块只能序列化和反序列化确认没有问题的对象
  • copyreg的 pickle 支持属性丢失,版本和导入类表信息

使用 copyreg這个内建的 module ,搭配 pickle使用。

pickle使用上很简单,假设我们有个 class:

  1. class GameState(object):
  2. def __init__(self):
  3. self.level = 0
  4. self.lives = 4
  5. state = GameState()
  6. state.level += 1 # Player beat a level
  7. state.lives -= 1 # Player had to try again
  8. 复制代码

可以用 pickle保存 object

  1. import pickle
  2. state_path = '/tmp/game_state.bin'
  3. with open(state_path, 'wb') as f:
  4. pickle.dump(state, f)
  5. with open(state_path, 'rb') as f:
  6. state_after = pickle.load(f)
  7. # {'lives': 3, 'level': 1}
  8. print(state_after.__dict__)
  9. 复制代码

但是如果增加了新的 field, game_state.binload 回來的 object 当然不会有新的 field (points),可是它仍然是 GameState 的 instance,这会造成混乱。

  1. class GameState(object):
  2. def __init__(self):
  3. self.level = 0
  4. self.lives = 4
  5. self.points = 0
  6. with open(state_path, 'rb') as :
  7. state_after = pickle.load(f)
  8. # {'lives': 3, 'level': 1}
  9. print(state_after.__dict__)
  10. assert isinstance(state_after, GameState)
  11. 复制代码

使用 copyreg可以解決这个问题,它可以注册用來 serialize Python 物件的函式。

Default Attribute Values

pickle_game_state() 返回一个 tuple ,包含了拿來 unpickle 的函式以及传入函式的引数。

  1. import copyreg
  2. class GameState(object):
  3. def __init__(self, level=0, lives=4, points=0):
  4. self.level = level
  5. self.lives = lives
  6. self.points = points
  7. def pickle_game_state(game_state):
  8. kwargs = game_state.__dict__
  9. return unpickle_game_state, (kwargs,)
  10. def unpickle_game_state(kwargs):
  11. return GameState(**kwargs)
  12. copyreg.pickle(GameState, pickle_game_state)
  13. 复制代码
Versioning Classes

copyreg也可以拿來记录版本,达到向后相容的目的。

如果原先的 class 如下

  1. class GameState(object):
  2. def __init__(self, level=0, lives=4, points=0, magic=5):
  3. self.level = level
  4. self.lives = lives
  5. self.points = points
  6. self.magic = magic
  7. state = GameState()
  8. state.points += 1000
  9. serialized = pickle.dumps(state)
  10. 复制代码

后来修改了,拿掉 lives ,这时原先使用预设参数的做法不能用了。

  1. class GameState(object):
  2. def __init__(self, level=0, points=0, magic=5):
  3. self.level = level
  4. self.points = points
  5. self.magic = magic
  6. # TypeError: __init__() got an unexpected keyword argument 'lives'
  7. pickle.loads(serialized)
  8. 复制代码

在 serialize 时多加上版本号, deserialize 时加以判断

  1. def pickle_game_state(game_state):
  2. kwargs = game_state.__dict__
  3. kwargs['version'] = 2
  4. return unpickle_game_state, (kwargs,)
  5. def unpickle_game_state(kwargs):
  6. version = kwargs.pop('version', 1)
  7. if version == 1:
  8. kwargs.pop('lives')
  9. return GameState(**kwargs)
  10. copyreg.pickle(GameState, pickle_game_state)
  11. 复制代码
Stable Import Paths

重写程式时,如果 class 改名了,想要 load 的 serialized 物件当然不能用,但还是可以使用 copyreg解決。

  1. class BetterGameState(object):
  2. def __init__(self, level=0, points=0, magic=5):
  3. self.level = level
  4. self.points = points
  5. self.magic = magic
  6. copyreg.pickle(BetterGameState, pickle_game_state)
  7. 复制代码

可以发现 unpickle_game_state()的 path 进入 dump 出來的资料中,当然这样做的缺点就是 unpickle_game_state()所在的 module 不能改 path 了。

  1. state = BetterGameState()
  2. serialized = pickle.dumps(state)
  3. print(serialized[:35])
  4. >>>
  5. b'\x80\x03c__main__\nunpickle_game_state\nq\x00}'
  6. 复制代码

第45条: 用 datetime 替代 time 来处理本地时间

备忘录
  • 不要使用time模块在转换不同时区的时间
  • 而用datetime配合 pytz 转换
  • 总数保持UTC时间,最后面再输出本地时间

第46条: 使用内置算法与数据结构

备忘录
  • 使用 Python 内置的模块来描述各种算法和数据结构
  • 开发者不应该自己去重新实现他们,因为我们很难把它写好

内置算法和数据结构

  • collections.deque

  • collections.OrderedDict

  • collection.defaultdict

  • heapq模块操作list(优先队列):heappush,heappop和nsmallest

    1. a = []
    2. heappush(a, 5)
    3. heappush(a, 3)
    4. heappush(a, 7)
    5. heappush(a, 4)
    6. print(heappop(a), heappop(a), heappop(a), heappop(a))
    7. # >>>
    8. # 3 4 5 7
    9. 复制代码
  • bisect模块:bisect_left可以对有序列表进行高效二分查找

  • itertools模块(Python2不一定支持):

    • 连接迭代器:chain,cycle,tee和zip_longest
    • 过滤:islice,takewhile,dropwhile,filterfalse
    • 组合不同迭代器:product,permutations和combination

第47 条: 在重视 精确度的场合,应该使用 decimal

备忘录
  • 高精度要求的使用 Decimal 处理,如对舍入行为要求很严的场合,eg: 涉及货币计算的场合

第48条: 学会安装由 Python 开发者社区所构建的模块

  • 在 https://pypi.python.org 查找通用模块,并且用pip安装

七、协作开发

第49条: 为每个函数、类和模块编写文档字符串

第50条: 用包来安排模块,并提供稳固的 API

第51条: 为自编的模块定义根异常,以便将调用者与 API 相隔离

第52条: 用适当的方式打破循环依赖问题

第53条: 用虚拟环境隔离项目,并重建其依赖关系

八、部署

第54条: 考虑用模块级别的代码来配置不同的部署环境

第55条: 通过 repr 字符串来输出调试信息

备忘录
  • repr作用于内置类型会产生可打印的字符串,eval可以获得这个字符串的原始值
  • __repr__自定义上面输出的字符串

第56条: 用 unittest 来测试全部代码

备忘录
  • 使用unittest编写测试用例,不光是单元测试,集成测试也很重要
  • 继承TestCase,并且每个方法名都以test开始

第57条: 考虑用 pdb 实现交互调试

备忘录
  • 启用pdb,然后在配合shell命令调试 import pdb; pdb.set_trace();

第58条: 先分析性能再优化

  • cProfile 比 profile更精准
    • ncalls:调用次数
    • tottime:函数自身耗时,不包括调用函数的耗时
    • cumtime:包括调用的函数耗时

第59条: 用 tracemaloc 来掌握内存的使用及泄露情况

备忘录
  • gc模块可以知道有哪些对象存在,但是不知道怎么分配的
  • tracemalloc可以得到内存的使用情况,但是只在Python3.4及其以上版本提供

参考书籍

代码

Effective Python(英文版) PDF 密码: 7v9r

Effecttive Python(中文不完整非扫描版) PDF 密码: 86bm

Effective Python(中文扫描版) PDF 密码: dg7w

转载于:https://juejin.im/post/5ac98e6cf265da23766b8cfe

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/709384
推荐阅读
相关标签
  

闽ICP备14008679号