1
TheSe7en 2012-08-14 16:36:07 +08:00
贊一個!
|
2
neildd 2012-08-14 16:39:02 +08:00
其实文件名是流水号的话,用wget一个命令就完成了,根本用不着写脚本。
|
3
ouankou OP @neildd 问题就是网页参数是流水号,而且从-6开始,变态⋯⋯。pdf地址内尾部是随机的6位数字,至少我看不出什么规律,所以就手动提取了。
类似这样的,最后六位数字每页都不同。 <PARAM NAME="SRC" VALUE=/bjm/bjwh/zrdl/200711/P020071117503730461643.pdf> |
4
zern 2012-08-14 17:05:30 +08:00
|
5
huihen 2012-08-14 20:06:12 +08:00
楼上不错
|
6
armoni 2012-08-14 20:16:34 +08:00 1
curl提取pdf地址,然后wget,这事儿还是shell好使
|
7
twor2 2012-08-14 21:13:46 +08:00
赞一个
|
8
zhaobei92 2012-08-17 18:30:35 +08:00
pagesrc = str(fileHandle.read(), 'utf-8') 这句好像不能实现吧。
|
9
ouankou OP @zhaobei92 是的,那个编码选错了,这里贴的代码已经改了不少。这句改成了:
pagesrc = str(fileHandle.read(), 'euc-jp', 'ignore') 请参见: https://github.com/ouankou/Caribrenamer |