比如我想下载某个网页
http://www.economist.com/news/china/21645839-prime-minister-seeks-lower-expectations-economy-go-slow
下载后,只留下正文部分。
存储为PDF文档。
如何编程让这个过程自动化?
1
liuhaotian 2015-03-09 10:14:03 +08:00
curl 获取网页,正则匹配包含正文id的容器,生成pdf。
生成pdf可以直接用轮子。 |
2
liuhaotian 2015-03-09 10:15:20 +08:00
|
3
liuhaotian 2015-03-09 10:16:54 +08:00
@Livid
这个在做链接自动匹配的时候是刻意把两个相邻链接的\n转成空格的还是匹配的时候替换有问题? |
4
Chigogo OP @liuhaotian JS 可行吗?一定要学习Python吗?
|
5
Chigogo OP @liuhaotian 看到了,用PHP,OK
|
6
Draplater 2015-03-09 11:10:32 +08:00
要提取"正文部分"已经涉及到数据挖掘了。这个可以用readability完成。正文匹配并不容易,可能不台精确。
readability有python port,例如: https://pypi.python.org/pypi/readability-lxml 接下来把文字转换成pdf就是很简单的事情了,参考: http://www.interfaceware.com/manual/python_text_to_pdf.html |
7
Chigogo OP @Draplater 可以一步到位吗?下载某个特定的网站的正文,正文问题很好解决的。但是下载,存储PDF 这两部可以一步到位吗?
|
8
manhere 2015-03-10 02:22:07 +08:00 via iPhone
casperjs搞定一切
|