V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xiaoshangmin
V2EX  ›  PHP

php curl 出现 couldn`t connect to host

  •  
  •   xiaoshangmin · 2016-12-22 20:56:17 +08:00 · 2856 次点击
    这是一个创建于 2892 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在抓取一个网站内容大概有 400 多万条数据
    用的是 php 的 curl 但是抓了大概 800 多条就出现 couldn`t connect to host
    谷歌了下有说伪造 IP curl_setopt($ch,CURLOPT_HTTPHEADER,$header);
    但是也是没用 出现这个错误时等过段时间又可以访问 不清楚这是为什么
    还有棘手的问题就是网站没有接口 它使用 thinkphp 模板生成 只能抓网页
    太频繁访问会有验证码 v 友有这方面的经验吗 求指教

    6 条回复    2016-12-23 10:13:02 +08:00
    mansur
        1
    mansur  
       2016-12-22 21:19:57 +08:00
    挂代理
    RE
        2
    RE  
       2016-12-22 22:55:12 +08:00
    如果手头上没有稳定的代理池,还是不建议上代理了,超时和不稳定等问题让你更头痛。
    可以试试淘宝上的拨号 VPS ,随时换 IP ,可以日租,很便宜。
    另外 400 多万总数、 800 条就挂,这样的频率用 PHP 抓取真的好吗…
    xiaoshangmin
        3
    xiaoshangmin  
    OP
       2016-12-22 23:04:59 +08:00 via iPhone
    @RE 不用 php 是用 py 吗 求指教
    RE
        4
    RE  
       2016-12-22 23:17:16 +08:00
    @xiaoshangmin
    确实是有很多爬虫用 py ,不过… 我不会……
    考虑到我上面说的那种 VPS ,一般都是 windows 系统,这种需求我习惯用 .net 写…
    xiaoshangmin
        5
    xiaoshangmin  
    OP
       2016-12-23 09:25:36 +08:00 via iPhone
    @RE 那可以说下抓取的思路吗
    wudanyang
        6
    wudanyang  
       2016-12-23 10:13:02 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2789 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 13:49 · PVG 21:49 · LAX 05:49 · JFK 08:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.