1
xiamingchong 2015-09-23 19:58:02 +08:00
容易
|
2
imbo OP @xiamingchong 有 ip 限制吗
|
3
TimePPT 2015-09-24 19:04:33 +08:00
@imbo 理论上网络建站的人都会做反爬机制,否则无数人无数爬虫爬不得把站拖垮了。越是大站越会。简单的限 UA ,稍微高级点的限 IP.
所以好的爬虫一定是多 IP 并行爬取且会调整请求间隔。让你的爬虫爬取的动作越接近真实用户就越有可能成功爬取。 |
5
ClutchBear 2015-09-25 15:26:44 +08:00
用 firefox 的 firebug 查看元素,找到类似有 json 数据的链接, 复制拷贝到地址栏就是淘宝商品列表的 json 格式的数据, 直接分析就行. 类似这样,可以得到 商品名称, 页面链接, 价格和店铺链接 |
6
Reed 2015-09-28 18:45:40 +08:00
爬起来挺容易的,难的是快点爬,越快越好。
我爬过豆瓣,那么问题来了, IP 被封怎么办,好,上代理 接着问题来了,代理质量太低,而且还是会被封,好,开线程 接着问题又来了,速度还是起不来,后来我就爬了好像不到 2K 本书就放弃了。 |
7
leetao102 2015-09-29 00:19:51 +08:00
@ClutchBear 小事一把。。我这里报错 sslv3
<img node-type="image" style="position: absolute; left: 0px; top: 141px;" src=" " width="450" height="292" class=" "> |
8
ClutchBear 2015-09-29 10:21:43 +08:00
@leetao102 mac10.10 报错 ssl3 的话,
我也被困扰了很久 最后在 stack overflow 上找到解决办法了. 根据 stackoverflow 大神的帖子,我试了很多方式,最终找到一个解决这个错误的方法. 在 python 中加入以下语句即可. import requests.packages.urllib3.util.ssl_ requests.packages.urllib3.util.ssl_.DEFAULT_CIPHERS = 'ALL' 我写的解决办法的链接: http://playbear.github.io/2015/09/25/taobao-ssl3-error/ |
9
alexinit 2015-09-29 14:59:33 +08:00
其实挺简单的,
|
10
leetao102 2015-09-29 22:35:49 +08:00
@ClutchBear 太帅啦。。原来作者就是你啊。。
|
11
leetao102 2015-09-30 00:33:05 +08:00
@ClutchBear 请问一下 淘宝这个 url : https://s.taobao.com/search?date-key=sort&data-value=price-desc&ajax=true& 我在 freebug 里面没有找到?您贴个图吗?谢谢
|
12
ClutchBear 2015-09-30 12:20:16 +08:00
@leetao102 点网络,再点保持,然后不同排序试几次,比如按价格 销量什么的.
就能找到了. |
13
leetao102 2015-10-01 02:07:52 +08:00
|
14
xiamingchong 2015-11-09 09:41:55 +08:00
@imbo 除了 ip 限制,别的限制都可以伪装
|