V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
PythoneerDev6
V2EX  ›  程序员

分享一个用 Python 获取 V2 首页文章的爬虫

  •  
  •   PythoneerDev6 ·
    xiyouMc · 2017-07-12 22:20:10 +08:00 · 4189 次点击
    这是一个创建于 2690 天前的主题,其中的信息可能已经有所发展或是发生改变。

    多的不说了。 直接上链接:

    点击 V2EX 爬虫

    第 1 条附言  ·  2017-07-13 09:47:03 +08:00

    强调下: 这是入门级别的爬虫。 吐槽 说 low 的。趁早 cmd + w,不送。

    第 2 条附言  ·  2017-07-13 09:50:32 +08:00

    还有,这是 v2 提供的 API.

    https://www.v2ex.com/api/topics/latest.json

    可以访问看看,是不是首页的文章。

    32 条回复    2017-07-14 22:12:07 +08:00
    lzhr
        1
    lzhr  
       2017-07-12 23:06:22 +08:00
    通过 Atom Feed 订阅
    ranleng
        2
    ranleng  
       2017-07-12 23:15:52 +08:00 via Android
    内个。。v2 有给 api
    cxbig
        3
    cxbig  
       2017-07-12 23:20:37 +08:00
    同上,为啥不用官方 Feed。。。
    xray887
        4
    xray887  
       2017-07-12 23:23:27 +08:00 via iPad
    说实话,感觉很 low
    aaronzjw
        5
    aaronzjw  
       2017-07-12 23:53:00 +08:00   ❤️ 1
    楼主辛苦造的轮子,不懂楼上的都这么刻薄。 鼓励鼓励吧,人生不易
    16888
        6
    16888  
       2017-07-13 00:23:15 +08:00 via Android
    这个确实有点搞(= ̄ ρ ̄=) ..zzZZ 好像是人家大门一直开着,你偏要翻墙进人家屋里去 haha
    gesse
        7
    gesse  
       2017-07-13 09:36:43 +08:00   ❤️ 1
    这个应该是技术练习吧,吐槽可以用 feed 的是什么鬼?

    为什么不好好评价下代码
    PythoneerDev6
        8
    PythoneerDev6  
    OP
       2017-07-13 09:43:36 +08:00
    @ranleng v2 的 API 不是实时的 难道你不知道?
    PythoneerDev6
        9
    PythoneerDev6  
    OP
       2017-07-13 09:45:03 +08:00
    @xray887 那你说说什么算不 low?
    PythoneerDev6
        10
    PythoneerDev6  
    OP
       2017-07-13 09:45:43 +08:00
    @16888 你用过 他的 API 吗 没发现不是 实时的吗?
    16888
        11
    16888  
       2017-07-13 10:45:13 +08:00
    @PythoneerDev6 是的,站长做了缓存。不光是 api,这个 web 首页也不是实时的啊,要缓存过期了,才会更新,你发个贴试试就知道了。
    PythoneerDev6
        12
    PythoneerDev6  
    OP
       2017-07-13 11:02:24 +08:00
    @16888 嗯 是的 发新帖排的很后,其次貌似回复也不是很及时的靠前。 貌似问题还是有的。
    PythoneerDev6
        13
    PythoneerDev6  
    OP
       2017-07-13 11:20:26 +08:00
    @aaronzjw 还是老铁 懂。
    aaronzjw
        14
    aaronzjw  
       2017-07-13 11:36:06 +08:00 via Android   ❤️ 1
    @PythoneerDev6 超哥我是你粉丝啊,说你 low 的肯定没看过你代码
    bao3
        15
    bao3  
       2017-07-13 12:30:30 +08:00   ❤️ 1
    楼上那些嘲讽楼主的人,我想表达的是,看了楼主的文章,起码我知道怎么弄这个基本的爬虫了。楼主应该是以 V2EX 为引子而已。
    Jakesoft
        16
    Jakesoft  
       2017-07-13 12:36:31 +08:00 via iPhone
    我写过的爬虫:输入 v2 的首页的 URL 得到所有的帖子,以及帖子的各个属性,不知楼主是否需要参考?
    gulangyu
        17
    gulangyu  
       2017-07-13 12:37:02 +08:00   ❤️ 1
    滋瓷分享!
    ivechan
        18
    ivechan  
       2017-07-13 12:48:00 +08:00   ❤️ 1
    虽然讲的比较简单, 但是胜在逻辑比较清晰, 另外排版还是不错的。
    看了一些其他人发的公众号文章,排版不忍直视。。
    ywgx
        19
    ywgx  
       2017-07-13 13:02:17 +08:00   ❤️ 1
    支持楼主
    lommo
        20
    lommo  
       2017-07-13 13:41:01 +08:00   ❤️ 1
    歧视 windows
    PythoneerDev6
        21
    PythoneerDev6  
    OP
       2017-07-13 14:03:42 +08:00
    @aaronzjw 扎心的 哇哇大哭
    PythoneerDev6
        22
    PythoneerDev6  
    OP
       2017-07-13 14:05:23 +08:00
    @Jakesoft v2 的首页 不就是 https://v2ex.com 嘛? 不过 不防分享出来 我看看。其实这个贴子只是安利下 Scrapy 的基础知识。V2 只是个引子。我也没有深入爬取 V2
    PythoneerDev6
        23
    PythoneerDev6  
    OP
       2017-07-13 14:06:13 +08:00   ❤️ 1
    @ivechan 每次写完文章 自己得看上 不下十次 改排版 改字词不当的地方。 才发出来。
    PythoneerDev6
        24
    PythoneerDev6  
    OP
       2017-07-13 14:06:39 +08:00
    @bao3 感动的我 哇哇大哭。
    PythoneerDev6
        25
    PythoneerDev6  
    OP
       2017-07-13 14:07:30 +08:00
    @lommo 南无观世音菩萨
    AnyISalIn
        26
    AnyISalIn  
       2017-07-13 15:07:20 +08:00
    写过一个 v2ex_console 的项目,通过命令行上 V2EX 登录、浏览、回复,不过烂尾了
    PythoneerDev6
        27
    PythoneerDev6  
    OP
       2017-07-13 15:47:40 +08:00
    @AnyISalIn 嗯嗯 不错的 棒棒的 。不过 这个文章中 v2 不是重点,Scrapy 才是重点。
    pcdRob
        28
    pcdRob  
       2017-07-13 16:45:19 +08:00
    我写φ( ̄ー ̄ )ノ了个更 low 的 爬 b 站用户的
    PythoneerDev6
        29
    PythoneerDev6  
    OP
       2017-07-13 17:29:20 +08:00
    @pcdRob 幸亏你爬的不是电视剧。
    mcds
        30
    mcds  
       2017-07-14 12:05:08 +08:00
    本来想吐槽一下楼主的头像,不过我玻璃心,怕被喷,还是算了...
    PythoneerDev6
        31
    PythoneerDev6  
    OP
       2017-07-14 13:00:54 +08:00
    @mcds V2 里面哪有头像可言。
    ywgx
        32
    ywgx  
       2017-07-14 22:12:07 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2909 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 03:01 · PVG 11:01 · LAX 19:01 · JFK 22:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.