1
TheSe7en 2012 年 8 月 14 日
贊一個!
|
2
neildd 2012 年 8 月 14 日
其实文件名是流水号的话,用wget一个命令就完成了,根本用不着写脚本。
|
3
ouankou OP @neildd 问题就是网页参数是流水号,而且从-6开始,变态⋯⋯。pdf地址内尾部是随机的6位数字,至少我看不出什么规律,所以就手动提取了。
类似这样的,最后六位数字每页都不同。 <PARAM NAME="SRC" VALUE=/bjm/bjwh/zrdl/200711/P020071117503730461643.pdf> |
4
zern 2012 年 8 月 14 日
|
5
huihen 2012 年 8 月 14 日
楼上不错
|
6
armoni 2012 年 8 月 14 日 curl提取pdf地址,然后wget,这事儿还是shell好使
|
7
twor2 2012 年 8 月 14 日
赞一个
|
8
zhaobei92 2012 年 8 月 17 日
pagesrc = str(fileHandle.read(), 'utf-8') 这句好像不能实现吧。
|
9
ouankou OP @zhaobei92 是的,那个编码选错了,这里贴的代码已经改了不少。这句改成了:
pagesrc = str(fileHandle.read(), 'euc-jp', 'ignore') 请参见: https://github.com/ouankou/Caribrenamer |