xiaoyong
V2EX  ›  问与答

爬虫提取 36 氪的文章正文,为什么抓取不到?

  •  
  •   xiaoyong · May 3, 2016 · 4922 views
    This topic created in 3664 days ago, the information mentioned may be changed or developed.

    本人使用 PHP 的: file_get_contents 和 curl 函数都未曾获取到。就认真研究了下 36 氪的正文加载过程。

    看了一下,它应该是使用 js 加载的正文内容。

    如果禁用 js 调试,正文就没有内容;否则,就可以正常显示。但是查看了下所有的 js 文件也没看出来头绪,如果使用“网页另存为”本地文件,再用浏览器打开也是没有正文。

    是不是使用了什么加密技术来获取正文(为了防止爬虫)?各位探讨一下。

    10 replies    2016-05-03 21:54:51 +08:00
    binux
        1
    binux  
       May 3, 2016
    .js-react-on-rails-component
    Syc
        2
    Syc  
       May 3, 2016 via Android
    采集技术不够深,还需多多磨练
    function007
        3
    function007  
       May 3, 2016
    感觉就是丧心病狂的转义。。
    EchoWhale
        4
    EchoWhale  
       May 3, 2016
    这么丧心病狂地提防爬虫, 36 氪完全不需要讨好搜索引擎吗
    Tink
        5
    Tink  
    PRO
       May 3, 2016
    卧槽,这个有点吊
    titanp
        6
    titanp  
       May 3, 2016 via Android
    这种站可能怕爬虫直接原文转
    popok
        7
    popok  
       May 3, 2016 via iPhone   ❤️ 1
    正文都是直接在


    但是最终显示出来,应该是通过一个 js 解析的


    不是前段,只懂皮毛
    popok
        8
    popok  
       May 3, 2016
    @EchoWhale 然而,人家爬虫还是收录的好好的
    gimp
        9
    gimp  
       May 3, 2016 via Android
    使用 selenium 简单粗暴 哈哈
    qqmishi
        10
    qqmishi  
       May 3, 2016   ❤️ 1
    #encoding=utf8
    import requests
    import json
    import re

    url="http://36kr.com/p/5045314.html"
    r = requests.get(url).content
    json_data = json.loads(re.sub(""","\"",re.search("data-props=\"([^\"]+)\"",r).group(1)))
    print json_data['data']['post']['display_content']

    其实抓到 json_data 之后,后面就随便处理了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1034 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 49ms · UTC 18:33 · PVG 02:33 · LAX 11:33 · JFK 14:33
    ♥ Do have faith in what you're doing.