当我开始学习 Python 的时候,有些事我希望我一早就知道。我花费了很多时间才学会这些东西。我想要把这些重点都编纂到一篇文章当中。这篇文章的目标读者,是刚刚开始学习 Python 语言的有经验的程序员,想要跳过前几个月研究 Python 使用的那些他们已经在用的类似工具。包管理和标准工具这两节对于初学者来说同样很有帮助。 我的经验主要基于 Python 2.7,但是大多数的工具对任何版本都有效。 如果你从来没有使用过 Python,我强烈建议你阅读 Python introduction,因为你需要知道基本的语法和类型。
包管理 Python 世界最棒的地方之一,就是大量的第三方程序包。同样,管理这些包也非常容易。按照惯例,会在 requirements.txt 文件中列出项目所需要的包。每个包占一行,通常还包含版本号。这里有一个例子,本博客使用 Pelican:
1 2 3 ; html-script: false ]pelican==3.3 Markdown pelican-extended-sitemap==1.0.0 Python 程序包有一个缺陷是,它们默认会进行全局安装。我们将要使用一个工具,使我们每个项目都有一个独立的环境,这个工具叫 virtualenv。我们同样要安装一个更高级的包管理工具,叫做 pip,他可以和 virtualenv 配合工作。 首先,我们需要安装 pip。大多数 python 安装程序已经内置了 easy_install ( python 默认的包管理工具),所以我们就使用 easy_install pip 来安装 pip。这应该是你最后一次使用 easy_install 了。如果你并没有安装 easy_install ,在 linux 系统中,貌似从 python-setuptools 包中可以获得。 如果你使用的 Python 版本高于等于 3.3, 那么 Virtualenv 已经是标准库的一部分了,所以没有必要再去安装它了。 下一步,你希望安装 virtualenv 和 virtualenvwrapper。Virtualenv 使你能够为每个项目创造一个独立的环境。尤其是当你的不同项目使用不同版本的包时,这一点特别有用。Virtualenv wrapper 提供了一些不错的脚本,可以让一些事情变得容易。 Shell
1 ; html-script: false ]sudo pip install virtualenvwrapper 当 virtualenvwrapper 安装后,它会把 virtualenv 列为依赖包,所以会自动安装。 打开一个新的 shell,输入 mkvirtualenv test 。如果你打开另外一个 shell,则你就不在这个 virtualenv 中了,你可以通过 workon test 来启动。如果你的工作完成了,可以使用 deactivate 来停用。
IPython IPython 是标准 Python 交互式的编程环境的一个替代品,支持自动补全,文档快速访问,以及标准交互式编程环境本应该具备的很多其他功能。 当你处在一个虚拟环境中的时候,可以很简单的使用 pip install ipython 来进行安装,在命令行中使用 ipython 来启动
另一个不错的功能是”笔记本”,这个功能需要额外的组件。安装完成后,你可以使用 ipython notebook,而且会有一个不错的网页 UI,你可以创建笔记本。这在科学计算领域很流行。
测试 我推荐使用 nose 或是 py.test。我大部分情况下用 nose。它们基本上是类似的。我将讲解 nose 的一些细节。 这里有一个人为创建的可笑的使用 nose 进行测试的例子。在一个以 test_开头的文件中的所有以 test_开头的函数,都会被调用:
Python
1 2 ; html-script: false ]def test_equality(): assert True == False 不出所料,当运行 nose 的时候,我们的测试没有通过。 Shell
nose.tools 中同样也有一些便捷的方法可以调用 Python
1 2 3 ; html-script: false ]from nose.tools import assert_true def test_equality(): assert_true(False) 如果你想使用更加类似 JUnit 的方法,也是可以的: Python
1 2 3 4 5 6 7 8 9 10 ; html-script: false ]from nose.tools import assert_true from unittest import TestCase class ExampleTest(TestCase): def setUp(self): # setUp & tearDown are both available self.blah = False def test_blah(self): self.assertTrue(self.blah) 开始测试: Shell
Ran 1 test in 0.003s FAILED (failures=1)
卓越的 Mock 库包含在 Python 3 中,但是如果你在使用 Python 2,可以使用 pypi 来获取。这个测试将进行一个远程调用,但是这次调用将耗时 10s。这个例子显然是人为捏造的。我们使用 mock 来返回样本数据而不是真正的进行调用。 Python
1 2 3 4 5 6 7 8 9 10 11 12 13 14 ; html-script: false ]import mock from mock import patch from time import sleep class Sweetness(object): def slow_remote_call(self): sleep(10) return "some_data" # lets pretend we get this back from our remote api call def test_long_call(): s = Sweetness() result = s.slow_remote_call() assert result == "some_data" 当然,我们的测试需要很长的时间。 Shell
1 2 3 4 5 ; html-script: false ](test)jhaddad@jons-mac-pro ~VIRTUAL_ENV/src$ nosetests test_mock.py Ran 1 test in 10.001s OK 太慢了!因此我们会问自己,我们在测试什么?我们需要测试远程调用是否有用,还是我们要测试当我们获得数据后要做什么?大多数情况下是后者。让我们摆脱这个愚蠢的远程调用吧: Python
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ; html-script: false ]import mock from mock import patch from time import sleep class Sweetness(object): def slow_remote_call(self): sleep(10) return "some_data" # lets pretend we get this back from our remote api call def test_long_call(): s = Sweetness() with patch.object(s, "slow_remote_call", return_value="some_data"): result = s.slow_remote_call() assert result == "some_data" 好吧,让我们再试一次: Shell
Ran 1 test in 0.001s OK 好多了。记住,这个例子进行了荒唐的简化。就我个人来讲,我仅仅会忽略从远程系统的调用,而不是我的数据库调用。 nose-progressive 是一个很好的模块,它可以改善 nose 的输出,让错误在发生时就显示出来,而不是留到最后。如果你的测试需要花费一定的时间,那么这是件好事。 pip install nose-progressive 并且在你的 nosetests 中添加--with-progressive
调试 iPDB 是一个极好的工具,我已经用它查出了很多匪夷所思的 bug。pip install ipdb 安装该工具,然后在你的代码中 import ipdb; ipdb.set_trace(),然后你会在你的程序运行时,获得一个很好的交互式提示。它每次执行程序的一行并且检查变量。
python 内置了一个很好的追踪模块,帮助我搞清楚发生了什么。这里有一个没什么用的 python 程序: Python
1 2 3 ; html-script: false ]a = 1 b = 2 a = b 这里是对这个程序的追踪结果: Shell
1 2 3 4 5 6 7 ; html-script: false ](test)jhaddad@jons-mac-pro ~VIRTUAL_ENV/src$ python -m trace --trace tracing.py 1 ↵ --- modulename: tracing, funcname: <module> tracing.py(1): a = 1 tracing.py(2): b = 2 tracing.py(3): a = b --- modulename: trace, funcname: _unsettrace trace.py(80): sys.settrace(None) 当你想要搞清楚其他程序的内部构造的时候,这个功能非常有用。如果你以前用过 strace,它们的工作方式很相像 在一些场合,我使用 pycallgraph 来追踪性能问题。它可以创建函数调用时间和次数的图表。
最后,objgraph 对于查找内存泄露非常有用。这里有一篇关于如何使用它查找内存泄露的好文。
Gevent Gevent 是一个很好的库,封装了 Greenlets,使得 Python 具备了异步调用的功能。是的,非常棒。我最爱的功能是 Pool,它抽象了异步调用部分,给我们提供了可以简单使用的途径,一个异步的 map()函数: Python
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 ; html-script: false ]from gevent import monkey monkey.patch_all() from time import sleep, time def fetch_url(url): print "Fetching %s" % url sleep(10) print "Done fetching %s" % url from gevent.pool import Pool urls = ["http://test.com", "http://bacon.com", "http://eggs.com"] p = Pool(10) start = time() p.map(fetch_url, urls) print time() - start 非常重要的是,需要注意这段代码顶部对 gevent monkey 进行的补丁,如果没有它的话,就不能正确的运行。如果我们让 Python 连续调用 fetch_url 3 次,通常我们期望这个过程花费 30 秒时间。使用 gevent: Python
1 2 3 4 5 6 7 8 ; html-script: false ](test)jhaddad@jons-mac-pro ~VIRTUAL_ENV/src$ python g.py Fetching http://test.com Fetching http://bacon.com Fetching http://eggs.com Done fetching http://test.com Done fetching http://bacon.com Done fetching http://eggs.com 10.001791954 如果你有很多数据库调用或是从远程 URLs 获取,这是非常有用的。我并不是很喜欢回调函数,所以这一抽象对我来说效果很好。
结论 好吧,如果你看到这里了,那么你很可能已经学到了一些新东西。这些工具,在过去的一年里对我影响重大。找打它们花费了不少时间,所以希望本文能够减少其他人想要很好利用这门语言需要付出的努力。