最近在抓取一个网站内容大概有 400 多万条数据
用的是 php 的 curl 但是抓了大概 800 多条就出现 couldn`t connect to host
谷歌了下有说伪造 IP curl_setopt($ch,CURLOPT_HTTPHEADER,$header);
但是也是没用 出现这个错误时等过段时间又可以访问 不清楚这是为什么
还有棘手的问题就是网站没有接口 它使用 thinkphp 模板生成 只能抓网页
太频繁访问会有验证码 v 友有这方面的经验吗 求指教
1
mansur 2016-12-22 21:19:57 +08:00
挂代理
|
2
RE 2016-12-22 22:55:12 +08:00
如果手头上没有稳定的代理池,还是不建议上代理了,超时和不稳定等问题让你更头痛。
可以试试淘宝上的拨号 VPS ,随时换 IP ,可以日租,很便宜。 另外 400 多万总数、 800 条就挂,这样的频率用 PHP 抓取真的好吗… |
3
xiaoshangmin OP @RE 不用 php 是用 py 吗 求指教
|
4
RE 2016-12-22 23:17:16 +08:00
|
5
xiaoshangmin OP @RE 那可以说下抓取的思路吗
|
6
wudanyang 2016-12-23 10:13:02 +08:00
|