大学最后一年了,回想起没及时关注学校通知而错过的比赛、选课,就十分懊恼。于是就做了这个小程序,一方面可以查看最新通知,另一方面如果有最新的消息,就能及时推送给我。
那么问题来了,学校的各类网站不可能有提供 API 给调用。于是我就自己写爬虫,一个个网站爬。对同一个页面进行对比,发现哪些文章是新出的,就可以触发推送机制啦。
当然要给大家用,肯定要支持订阅啦。我设计了一个简单的订阅机制,可以自由选择想要得到推送的网站。
爬虫其实也没那么简单,因为很多网站要登录,而且要验证码,还作了层层跳转反爬虫。而且网站数量比较多,我一个个写过去工作量是吃不消的。总之最终是做出来了,有人对我的方案感兴趣的吗?可以评论讨论一下...我用的chrome headless browser。
做了 8、9 个 module,用 docker stack 以及 traefik 构建了简易的微服务,Service 内部用 GRPC 与 Rabbitmq 通信,前后端之间当然用 RESTful HTTP。
虽然对各位用处不太大,但是有兴趣的可以稍微体验一下:
1
xaganji 2018-12-11 20:23:22 +08:00 via Android
这个二维码是怎么生成的
|