爬虫提取 36 氪的文章正文，为什么抓取不到？

This topic created in 3664 days ago, the information mentioned may be changed or developed.

本人使用 PHP 的： file_get_contents 和 curl 函数都未曾获取到。就认真研究了下 36 氪的正文加载过程。

看了一下，它应该是使用 js 加载的正文内容。

如果禁用 js 调试，正文就没有内容；否则，就可以正常显示。但是查看了下所有的 js 文件也没看出来头绪，如果使用“网页另存为”本地文件，再用浏览器打开也是没有正文。

是不是使用了什么加密技术来获取正文（为了防止爬虫）？各位探讨一下。

正文

curl

PHP

使用

10 replies • 2016-05-03 21:54:51 +08:00

binux

May 3, 2016

.js-react-on-rails-component

Syc

May 3, 2016 via Android

采集技术不够深，还需多多磨练

function007

May 3, 2016

感觉就是丧心病狂的转义。。

EchoWhale

May 3, 2016

这么丧心病狂地提防爬虫， 36 氪完全不需要讨好搜索引擎吗

Tink

PRO

May 3, 2016

卧槽，这个有点吊

titanp

May 3, 2016 via Android

这种站可能怕爬虫直接原文转

popok

May 3, 2016 via iPhone

正文都是直接在

但是最终显示出来，应该是通过一个 js 解析的

不是前段，只懂皮毛

popok

May 3, 2016

@EchoWhale 然而，人家爬虫还是收录的好好的

gimp

May 3, 2016 via Android

使用 selenium 简单粗暴哈哈

qqmishi

May 3, 2016

#encoding=utf8
import requests
import json
import re

url="http://36kr.com/p/5045314.html"
r = requests.get(url).content
json_data = json.loads(re.sub(""","\"",re.search("data-props=\"([^\"]+)\"",r).group(1)))
print json_data['data']['post']['display_content']

其实抓到 json_data 之后，后面就随便处理了