cpf
V2EX  ›  问与答

每隔 10~20 分钟爬一次网站会被封吗?做热点聚合页面用

  •  
  •   cpf · May 14, 2022 · 2665 views
    This topic created in 1459 days ago, the information mentioned may be changed or developed.
    如题所述

    我想搞个热点聚合页面,每天给自己看看新闻,吃吃瓜啥的

    爬取热点信息的频率为 10~20 分钟一次,不知道会不会被封 ip

    这方面我不是很懂,没啥经验

    之前爬过豆瓣的电影排行榜,结果爬的频率过高就给我封了一晚上

    有自己的服务器,后端打算用 nodejs 写

    v 友们有啥好的建议吗?
    7 replies    2022-05-16 14:29:03 +08:00
    ClericPy
        1
    ClericPy  
       May 14, 2022
    目前多数网站我这边 5 分钟一次没发现反爬

    有些网站走了机器学习等思路反反爬, 抓取频率如果太均衡或者非人类作息什么的会反爬, 但是大多数对网站不造成伤害的频率都是安全的. 以上是反爬角度, 至于法务角度就不赘述了
    Ultraman
        2
    Ultraman  
       May 14, 2022 via Android
    看看 rsshub 有没有相关路由先?
    cpf
        3
    cpf  
    OP
       May 15, 2022
    @ClericPy #1 好的,谢谢

    @Ultraman #2 大多数都是没有 rss 吧,比如知乎日报、热榜,微博热搜啥的
    Ultraman
        4
    Ultraman  
       May 15, 2022 via Android   ❤️ 1
    cpf
        5
    cpf  
    OP
       May 15, 2022
    @Ultraman #4 是我孤陋寡闻了,谢谢😅
    brave256
        6
    brave256  
       May 16, 2022   ❤️ 1
    可以参考下 https://tophub.today/
    cpf
        7
    cpf  
    OP
       May 16, 2022
    @brave256 #6 哈哈,感谢,正需要这样的网站
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4145 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 56ms · UTC 00:06 · PVG 08:06 · LAX 17:06 · JFK 20:06
    ♥ Do have faith in what you're doing.