V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
lx19930805
V2EX  ›  问与答

早期的网页爬虫是如何进行的?

  •  
  •   lx19930805 · Dec 25, 2015 · 3802 views
    This topic created in 3784 days ago, the information mentioned may be changed or developed.

    现在多是通过"审查元素"获取网页的代码结构,然后正则获取想要的内容.然后再代码编写
    那请问过去的爬虫是通过什么方法获取网页和想要的内容?毕竟没有 HTML 提供

    22 replies    2015-12-25 21:34:40 +08:00
    imn1
        1
    imn1  
       Dec 25, 2015
    ?
    啥意思
    没有 HTML 何来网页?没有 HTML 的时代也没有爬虫一说
    那时候都是 tele bbs+邮件列表
    qw7692336
        2
    qw7692336  
       Dec 25, 2015
    不是更容易吗
    mogita
        3
    mogita  
       Dec 25, 2015 via iPhone
    隐约觉得楼主暴露年龄段了。
    lx19930805
        4
    lx19930805  
    OP
       Dec 25, 2015
    @imn1 一开始就纠结该怎么用词,果然有人提了.所以我前面有解释.
    因为不懂各种词的表达,所以不要见怪.
    就是网页源代码,里面的那些 HTML 代码.
    早期没有"审查元素",是如何具体爬出来的.
    lx19930805
        5
    lx19930805  
    OP
       Dec 25, 2015
    @ck65 我觉得这没什么必要隐藏(93).该说的应该是觉得我是个新手,我才刚接触
    lx19930805
        6
    lx19930805  
    OP
       Dec 25, 2015
    @qw7692336 具体呢?
    Zzzzzzzzz
        7
    Zzzzzzzzz  
       Dec 25, 2015
    view-source, 审核元素其实不准的, 因为浏览器会补全一些元素
    早些时候也不流行 xpath, 都是直接用正则直接处理 raw html 的.
    abelyao
        8
    abelyao  
       Dec 25, 2015
    @lx19930805 你是指在没有「审查元素」之前怎么怎么从一大堆 HTML 中找出想要的信息的位置吧?那当然是人工查找啦, HTML 那么简单…
    lx19930805
        9
    lx19930805  
    OP
       Dec 25, 2015
    @abelyao 啊?那获取源代码,然后复制粘贴到想要的地方显示出来呢.不是也要通过爬虫吗?
    抱歉,我是新人,看了一下 python 的爬某个网站,发现都是先审查,然后根据相应 div 内容等来改的
    imn1
        10
    imn1  
       Dec 25, 2015
    @lx19930805
    你是说 DOM 吧?
    DOM 其实很早就有了, 9x 年代,大概 ie3~4 期间出现
    再早些时候 js 都没有, html 页面很简单,直接文本查找就可以了,正则
    那个是贺氏时代,网速慢得要死,没什么人弄爬虫
    但那时有一种另类爬虫,就是离线浏览器,基本上就是抓<a href=>
    loading
        11
    loading  
       Dec 25, 2015 via Android
    居然要审查元素…楼主,你水平暴露了。

    我们以前都是用 windows 记事本来审查元素的,不需要 chrome 或者 firefox
    qqmishi
        12
    qqmishi  
       Dec 25, 2015
    右键查看网页源代码,人肉去查,,,
    xcodebuild
        13
    xcodebuild  
       Dec 25, 2015
    楼主的描述方式有点白啊,,,以及正则不适合处理 html ,用 xpath
    lx19930805
        14
    lx19930805  
    OP
       Dec 25, 2015
    @loading @qqmishi @codefalling 很抱歉我语文表达不好,而且也是刚接触这方面,各种专业词语都不懂,无法表达.
    在没有"审查元素"之类的东西(不知道'查看网页源代码'过去有没有,请尽量当它没有吧)出来前,是如何爬的.
    Kokororin
        15
    Kokororin  
       Dec 25, 2015
    就算过去没有查看源代码,记事本总有吧。直接打开里面输入 url 地址就是源代码
    lxy
        16
    lxy  
       Dec 25, 2015
    在“审查元素”这个功能没有之前,可以右键查看源码吧?即使没有,也可以直接 Ctrl+S 保存网页文档,然后查看源码。不知那个时候有没有抓包工具,反正我小学的时候就会用 IE6 保存网页了。
    xidianpanpei
        17
    xidianpanpei  
       Dec 25, 2015
    估计楼主是想知道在浏览器没有查看网页源码功能的时候,大家是怎么解析网页做爬虫的。这个其实不复杂,因为无论 python 中 request 还是 linux 的 curl 都是先获取到网页源码后,接着再做解析处理的。不信可以在终端中执行'curl www.baidu.com'这个命令,就可以直接获取百度首页的源码。
    binux
        18
    binux  
       Dec 25, 2015
    审查元素只是帮你建树并定位节点,但是 HTML 源代码本事就存在的,即使没有审查元素,也可以脑内建树嘛。
    而且早期的页面,没有那么多复杂的元素<h1>就是<h1>,<li>就是<li>,结构清晰得多。
    crab
        19
    crab  
       Dec 25, 2015
    winnet winhttp .....等等等
    xcodebuild
        20
    xcodebuild  
       Dec 25, 2015
    @lx19930805 我还真不知道早期浏览器有没有这个功能,但是 curl 一下也就出来了-。-
    loading
        21
    loading  
       Dec 25, 2015 via Android
    楼主去看看 织梦 cms 的采集功能。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2663 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 75ms · UTC 11:56 · PVG 19:56 · LAX 04:56 · JFK 07:56
    ♥ Do have faith in what you're doing.