有几个分散在不同网站的信息来源,不定时有更新。
想每天把新的内容聚合起来发邮件到邮箱里,有什么好方法?
1
lxy42 2015-06-27 19:02:43 +08:00
RSS
|
2
27 OP 没有 rss,想用 python 来抓
|
3
lawder 2015-06-27 19:18:48 +08:00
用Feed43生成rss源
|
4
27 OP @lawder 这种只能抓取固定网址更新的内容,如果遇到一个长贴子,页数会变化的就不行了。
举例:想获取 http://www.china-midas.cn/bbs/thread-26016-20-1.html 的最后一个 post 的更新内容 |
5
mystryl 2015-06-27 20:37:35 +08:00
requests 抓url= 'http://www.china-midas.cn/bbs/thread-26016-%s-1.html' %page,
page么从20开始加 试到没抓到内容就停止 beautifulsoup抓取每一个div 为 ‘post_元素,Html2text转为纯文本,注意这货有个warp=87的bug自己改下config post后面有数字作为每一个的id 这样输出的数组建个csv,新抓的历遍一次id有没有重复的,没有重复就给自己发,可以用新的telegram bot啊,很方便。。。 最近才写了一个完全类似的项目。。。好玩的 |
6
ksupertu 2015-06-27 21:31:14 +08:00 via Android
军犬舆情监控系统
|
7
mystryl 2015-06-27 21:47:24 +08:00
|
8
loading 2015-06-27 22:09:54 +08:00 via Android
如果想通用,我觉得你要先写出 AI ,乖乖一个个站点适配吧!
要么就暴力点,全再抓一次了再说。 |
11
halfcrazy 2015-06-27 23:15:05 +08:00
kimonolab
|