这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
mercury233

有没有自动保存所有阅读过的网页上的内容的扩展

  •  
  •   mercury233 · Aug 28, 2021 · 4439 views
    This topic created in 1735 days ago, the information mentioned may be changed or developed.

    虽然人是有记忆的,互联网也是有记忆的,但有些东西终究会因各种原因从互联网中消失。

    有没有自动的办法将每天看到的内容保存到自己的硬盘上呢?

    人话版本:比如有时候看过的某个网页突然 404 了,只能从采集站找到一些踪迹,web archive 爬取的频率远远不够用,想至少让自己的电脑自动记住。

    20 replies    2021-09-10 09:09:48 +08:00
    Ehend
        1
    Ehend  
       Aug 28, 2021
    这得多大的存储空间?
    mercury233
        2
    mercury233  
    OP
       Aug 28, 2021
    @Ehend 对于大部分网站都可以只保留文字,而且只在页面停留超过一段时间的情况下才保存
    agagega
        3
    agagega  
       Aug 28, 2021 via iPhone
    想得更进一步:大部分人大部分时候访问的网页都属于少数网站,剩下的大部分网站也是用常用框架搭建的( WordPress 、Discourse 等),可以用类似 Adblock 的规则抓正文。再剩下的个人网站,几乎也可以用 Readability 搞定。
    mightofcode
        4
    mightofcode  
       Aug 28, 2021
    不仅会消失 还会被删除 lol
    chaleaoch
        5
    chaleaoch  
       Aug 28, 2021
    自动? 全部?
    手动部分的话 有网页剪辑工具.
    fox0001
        6
    fox0001  
       Aug 28, 2021 via Android
    没必要吧?
    ClericPy
        7
    ClericPy  
       Aug 28, 2021
    我能用 chrome cdp 写一个加载完毕自动保存 mhtml 或者截图, 但是感觉没啥意思...
    mscststs
        8
    mscststs  
       Aug 28, 2021
    https://chrome.google.com/webstore/detail/worldbrains-memex/abkfbakhjpmblaafnpgjppbmioombali

    之前用过这样一个插件,但是没有保存网页这么强大,只是把内容存下来方便索引,下次可以直接在地址栏搜到。

    而且挺难用的
    cmdOptionKana
        9
    cmdOptionKana  
       Aug 29, 2021 via Android
    比如浏览本页,第二次浏览时有新回复,是保留两个版本,还是只保留新版本?

    如果保留每次浏览的版本,占用空间必然爆炸;如果只保留新版,万一新版有内容被删除怎么办?
    a90120411
        10
    a90120411  
       Aug 29, 2021
    我写了一个 Chrome 插件,把历史记录保存到云端数据库,每次打开网页的时候判断是否访问过,并在页面中显示一个访问状态的标识。
    opengps
        11
    opengps  
       Aug 29, 2021
    浏览器给保存的历史访问记录其实就差不永久了。现在的网页抓取有些难度,动态加载之类的问题会让留存的数据出现各种不能离线使用的结果。存了太大,不存又有失效问题。真看到了对自己重要的数据,目前可能全靠自己复制存文档才靠谱
    moioooo
        12
    moioooo  
       Aug 29, 2021
    觉得以后可能会“消失”的网页,用简悦吧。
    chrome (或者其他浏览器)插件+ios jsbox 脚本,都可以实现剪藏离线 html,也可以发送剪藏到各种笔记软件上,也有离线稍后读功能。
    我一般是剪藏或者存离线 html 。有些软件只是存了个书签,实际内容并没有存离线,导致存了个寂寞,所以选来选去最后选了简悦。

    整体来说,需要永久保存的网页,不多。但是真消失了,就挺难受。
    sbilly
        13
    sbilly  
       Aug 29, 2021
    你有地方存吗?
    zxsczx
        14
    zxsczx  
       Aug 29, 2021
    确实 有时候想起收藏夹里的网站 点进去没了 还挺难受的
    mercury233
        15
    mercury233  
    OP
       Aug 29, 2021
    @cmdOptionKana 理想情况应该是保留差分
    vitalbo
        16
    vitalbo  
       Aug 29, 2021
    记得好早之前的 google desktop 有这个功能
    lockheart
        17
    lockheart  
       Aug 30, 2021 via iPhone   ❤️ 1
    你想要的可能是这个 https://historio.us ,自动存档浏览过的网页,付费后上限一万个。建议搭配[树形历史记录插件]( https://chrome.google.com/webstore/detail/tree-style-history/khcenbpnhbeplojhaolbpldmoppicold?hl=zh-CN)一起使用
    lockheart
        18
    lockheart  
       Aug 30, 2021 via iPhone   ❤️ 2
    本地储存开源解决方案可以使用 ArchiveBox 的自动存档浏览器历史记录功能,详细使用方法参考官方文档,功能十分强大(还可以做到在存档过程中使用 cookie,使用 adblock 去广告规则)地址:( https://github.com/ArchiveBox/ArchiveBox
    aasdkl
        19
    aasdkl  
       Aug 30, 2021
    我前段时间看到一个有点意思的(但是找不到网站了)
    是定时对用户的窗口截屏,然后搜索的时候是通过 OCR 进行搜索
    FlyingShark
        20
    FlyingShark  
       Sep 10, 2021
    @opengps chrome 历史记录只能看 3 个月啊,永久怎么做到的?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2750 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 75ms · UTC 01:34 · PVG 09:34 · LAX 18:34 · JFK 21:34
    ♥ Do have faith in what you're doing.