爱意满满的作品展示区。
Rootcat

[开源]新闻聚合站点,抓取科技圈即将发生的事

  •  
  •   Rootcat · Jun 20, 2018 · 4502 views
    This topic created in 2894 days ago, the information mentioned may be changed or developed.

    代码比较简单。有兴趣的可以在此基础上完善。

    原理:selenium + chromedriver 用 headless 模式定时抓取头条、百度、搜狐、新浪、虎嗅等网站,过滤出带将来时的标题,存入 mongodb。用 Flask 做 web 展示。

    Github 代码

    Demo

    14 replies    2018-06-27 12:22:47 +08:00
    cosmo
        1
    cosmo  
       Jun 20, 2018 via Android
    能分页和设置关键词就更好
    artandlol
        2
    artandlol  
       Jun 21, 2018 via iPhone
    有点像 rss 了,还没带链接
    jisibencom
        3
    jisibencom  
       Jun 21, 2018
    好像不错的样子。
    TimePPT
        4
    TimePPT  
    PRO
       Jun 21, 2018 via iPhone
    看标题以为能做到新闻预测……
    Rootcat
        5
    Rootcat  
    OP
       Jun 21, 2018
    @artandlol 开放 API 接口: http://140.143.226.167:8000/api/v1/news?page=0&limit=20
    MrJing1992
        6
    MrJing1992  
       Jun 21, 2018   ❤️ 1
    我很好奇是如何识别即将发生的事情的,看了代码,Soga !
    https://github.com/NolanZhao/FutureNews/blob/master/news_crawler/check.py

    words = ['将', '预计', '明天', '后天', '下周', '月底', '明日', '明晚', '下月', '明年', '未来', '计划于', '准备于']
    Rootcat
        7
    Rootcat  
    OP
       Jun 21, 2018
    @MrJing1992 老哥,稳 :)
    artandlol
        8
    artandlol  
       Jun 21, 2018
    @Rootcat 那可以定时存到 Elasticsearch 进行搜索
    terencehan
        9
    terencehan  
       Jun 21, 2018
    感觉不错诶
    hezhile
        10
    hezhile  
       Jun 22, 2018
    可以适配移动端吗?
    bigmama
        11
    bigmama  
       Jun 22, 2018
    http://thuglife8.com/hot/看我这个。

    用的网站里一位老哥的代码,自用。
    bigmama
        12
    bigmama  
       Jun 22, 2018
    http://thuglife8.com/hot/
    看我这个。

    用的网站里一位老哥的代码,自用。
    ucanuup
        13
    ucanuup  
       Jun 23, 2018
    《英特尔显卡部门又添一员大将 Larrabee 之父回归》,这个就不准确了。建议做个分词并结合词性标注。
    stream
        14
    stream  
       Jun 27, 2018
    @bigmama 代码能推荐一下么?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   948 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 43ms · UTC 18:55 · PVG 02:55 · LAX 11:55 · JFK 14:55
    ♥ Do have faith in what you're doing.