早期的网页爬虫是如何进行的?

This topic created in 3809 days ago, the information mentioned may be changed or developed.

现在多是通过"审查元素"获取网页的代码结构,然后正则获取想要的内容.然后再代码编写
那请问过去的爬虫是通过什么方法获取网页和想要的内容?毕竟没有 HTML 提供

网页

获取

代码

爬虫

22 replies • 2015-12-25 21:34:40 +08:00

imn1

Dec 25, 2015

?
啥意思
没有 HTML 何来网页？没有 HTML 的时代也没有爬虫一说
那时候都是 tele bbs+邮件列表

qw7692336

Dec 25, 2015

不是更容易吗

mogita

Dec 25, 2015 via iPhone

隐约觉得楼主暴露年龄段了。

lx19930805

Dec 25, 2015

@imn1 一开始就纠结该怎么用词,果然有人提了.所以我前面有解释.
因为不懂各种词的表达,所以不要见怪.
就是网页源代码,里面的那些 HTML 代码.
早期没有"审查元素",是如何具体爬出来的.

lx19930805

Dec 25, 2015

@ck65 我觉得这没什么必要隐藏(93).该说的应该是觉得我是个新手,我才刚接触

lx19930805

Dec 25, 2015

@qw7692336 具体呢?

Zzzzzzzzz

Dec 25, 2015

view-source, 审核元素其实不准的, 因为浏览器会补全一些元素
早些时候也不流行 xpath, 都是直接用正则直接处理 raw html 的.

abelyao

Dec 25, 2015

@lx19930805 你是指在没有「审查元素」之前怎么怎么从一大堆 HTML 中找出想要的信息的位置吧？那当然是人工查找啦， HTML 那么简单…

lx19930805

Dec 25, 2015

@abelyao 啊?那获取源代码,然后复制粘贴到想要的地方显示出来呢.不是也要通过爬虫吗?
抱歉,我是新人,看了一下 python 的爬某个网站,发现都是先审查,然后根据相应 div 内容等来改的

imn1

Dec 25, 2015

@lx19930805
你是说 DOM 吧？
DOM 其实很早就有了， 9x 年代，大概 ie3~4 期间出现
再早些时候 js 都没有， html 页面很简单，直接文本查找就可以了，正则
那个是贺氏时代，网速慢得要死，没什么人弄爬虫
但那时有一种另类爬虫，就是离线浏览器，基本上就是抓<a href=>

loading

Dec 25, 2015 via Android

居然要审查元素…楼主，你水平暴露了。

我们以前都是用 windows 记事本来审查元素的，不需要 chrome 或者 firefox

qqmishi

Dec 25, 2015

右键查看网页源代码，人肉去查，，，

xcodebuild

Dec 25, 2015

楼主的描述方式有点白啊，，，以及正则不适合处理 html ，用 xpath

lx19930805

Dec 25, 2015

@loading @qqmishi @codefalling 很抱歉我语文表达不好,而且也是刚接触这方面,各种专业词语都不懂,无法表达.
在没有"审查元素"之类的东西(不知道'查看网页源代码'过去有没有,请尽量当它没有吧)出来前,是如何爬的.

Kokororin

Dec 25, 2015

就算过去没有查看源代码，记事本总有吧。直接打开里面输入 url 地址就是源代码

lxy

Dec 25, 2015

在“审查元素”这个功能没有之前，可以右键查看源码吧？即使没有，也可以直接 Ctrl+S 保存网页文档，然后查看源码。不知那个时候有没有抓包工具，反正我小学的时候就会用 IE6 保存网页了。

xidianpanpei

Dec 25, 2015

估计楼主是想知道在浏览器没有查看网页源码功能的时候，大家是怎么解析网页做爬虫的。这个其实不复杂，因为无论 python 中 request 还是 linux 的 curl 都是先获取到网页源码后，接着再做解析处理的。不信可以在终端中执行'curl www.baidu.com'这个命令，就可以直接获取百度首页的源码。