V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dcalsky
V2EX  ›  微信

基于爬虫开发的一个高校微信小程序

  •  
  •   dcalsky · 2018-12-11 16:38:52 +08:00 · 2696 次点击
    这是一个创建于 2172 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大学最后一年了,回想起没及时关注学校通知而错过的比赛、选课,就十分懊恼。于是就做了这个小程序,一方面可以查看最新通知,另一方面如果有最新的消息,就能及时推送给我

    那么问题来了,学校的各类网站不可能有提供 API 给调用。于是我就自己写爬虫,一个个网站爬。对同一个页面进行对比,发现哪些文章是新出的,就可以触发推送机制啦。

    当然要给大家用,肯定要支持订阅啦。我设计了一个简单的订阅机制,可以自由选择想要得到推送的网站。

    爬虫其实也没那么简单,因为很多网站要登录,而且要验证码,还作了层层跳转反爬虫。而且网站数量比较多,我一个个写过去工作量是吃不消的。总之最终是做出来了,有人对我的方案感兴趣的吗?可以评论讨论一下...我用的chrome headless browser

    做了 8、9 个 module,用 docker stack 以及 traefik 构建了简易的微服务,Service 内部用 GRPC 与 Rabbitmq 通信,前后端之间当然用 RESTful HTTP。

    虽然对各位用处不太大,但是有兴趣的可以稍微体验一下:

    2 条回复    2018-12-11 21:34:49 +08:00
    xaganji
        1
    xaganji  
       2018-12-11 20:23:22 +08:00 via Android
    这个二维码是怎么生成的
    dcalsky
        2
    dcalsky  
    OP
       2018-12-11 21:34:49 +08:00
    @xaganji 调 getWXACode 接口
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5093 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 01:13 · PVG 09:13 · LAX 17:13 · JFK 20:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.