V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
louchenabc
V2EX  ›  分享创造

我正在开发的一款浏览器信息记录工具,欢迎讨论

  •  1
     
  •   louchenabc ·
    lcomplete · 2022-04-07 17:02:51 +08:00 · 3635 次点击
    这是一个创建于 962 天前的主题,其中的信息可能已经有所发展或是发生改变。

    🔭 我在做这样一款信息工具:它可以在本地记录我们上网浏览过的信息,包括文章、推特、微博等形式的内容,提供类似 Everything 的快速检索方式,并以良好的信息归类方式进行呈现,辅助我们取回看过的信息。这是最核心的功能,取回看过的信息后可能还会增加二次处理的功能,比如 Save To 这类。

    💡 这款工具的理念是这样的——你只管看,我帮你记,需要的时候快速调取出来,扩充第二大脑。

    我们使用网络的时间越来越长,有这样一款工具相当于间接提升了阅读的能力,让我们在信息处理、写作和交流上都能获得更大的优势。

    如果你对这款工具感兴趣的话,欢迎参与讨论,可以谈谈你对这款工具的看法、期望的功能或者你觉得较合理的定价。

    🌈 本月参与讨论的朋友,若对这款工具感兴趣,可提供邮箱或其他联系方式给我,在工具做好后我将免费赠送一份。

    关于做这款工具的更多思考,我在个人周刊中写的更详细,感兴趣的话可查看:野生架构师周刊 #13 🔭 重新掌控自己的信息

    35 条回复    2022-05-22 02:11:38 +08:00
    Martin123123
        1
    Martin123123  
       2022-04-07 17:08:42 +08:00
    实现的形式?插件+同步?还是 app+本地存储?
    3dwelcome
        2
    3dwelcome  
       2022-04-07 17:30:13 +08:00   ❤️ 1
    我也写了一个浏览器扩展,自己正在用,只记录访问过的 URL ,写进 indexedDB 里。

    原因是我听说 chrome 浏览器的历史记录,三个月后会过期自动删除,这点我完全不能接受。
    3dwelcome
        3
    3dwelcome  
       2022-04-07 17:38:46 +08:00


    贴个图,没写界面,导出数据是纯 CSV 。

    就相当于一个历史备份,一年多没怎么用过,但不能没有。
    xinyana
        4
    xinyana  
       2022-04-07 17:54:52 +08:00 via Android
    这个功能很小众,收费的话,恐怕有点难
    louchenabc
        5
    louchenabc  
    OP
       2022-04-07 18:23:54 +08:00
    @martin19980418 插件+本地客户端的形式。
    louchenabc
        6
    louchenabc  
    OP
       2022-04-07 18:26:00 +08:00
    @3dwelcome 是个好思路,把内容存进去不知道是否可行,可能会遇到容量限制,另外就很难提升检索的速度。
    louchenabc
        7
    louchenabc  
    OP
       2022-04-07 18:27:13 +08:00
    @xinyana 先做出来,如果不赚钱的话就当免费吧,哈哈。
    lockheart
        8
    lockheart  
       2022-04-07 18:28:36 +08:00 via iPhone
    市面上有这类软件,不过价格比较贵,而且付费也限制最多留存一万个页面
    0o0O0o0O0o
        9
    0o0O0o0O0o  
       2022-04-07 18:33:42 +08:00 via iPhone
    WorldBrain's Memex
    XiaoGouBa
        10
    XiaoGouBa  
       2022-04-07 18:34:52 +08:00 via Android
    好耶,支持。
    wudicgi
        11
    wudicgi  
       2022-04-07 18:37:12 +08:00
    功能是需要,甚至没这么高要求,能把收藏过的网页都本地存一份快照就行
    (快照是完全脱离浏览器可用的)
    louchenabc
        12
    louchenabc  
    OP
       2022-04-07 18:53:54 +08:00
    @0o0O0o0O0o 感谢分享,我打算做一个纯本地的,不提供 sass 服务,纯客户端工具确实有点不符合潮流了,但它能够在电脑端提供最快的体验,适合重度电脑工具者。
    guxianbang
        13
    guxianbang  
       2022-04-07 19:15:14 +08:00
    6 年前我就在找这样的软件。
    我不觉得这是小众需求,因为人往往是后知后觉的,习惯于错过。

    “肯定你也遇到过这样的情况:不知不觉间浏览了一些文字,过一段时间想要找到原文,脑海中却只留下了一点模糊的印象,去搜寻它仿佛大海捞针,要找到变得很难了。
    但是如果所有加载到本地的文字都自动保存的话,从这里面搜索的话范围就小了许多,也就更容易找到了。”
    https://www.zhihu.com/question/39119397
    0o0O0o0O0o
        14
    0o0O0o0O0o  
       2022-04-07 19:17:56 +08:00 via iPhone
    @louchenabc 挺好的,开源可供人自己部署是这类隐私至关重要的应用最好的存在方式。

    Memex 似乎也有过类似的规划,至于目前它能不能完全由自己部署,我没有试过,由于隐私顾虑且不想折腾,我已经放弃使用 Memex 。

    可以参考
    https://github.com/WorldBrain
    https://worldbrain.github.io/storex-docs
    louchenabc
        15
    louchenabc  
    OP
       2022-04-07 19:35:07 +08:00
    @guxianbang 跟其他人也讨论过,许多人都有这个痛点。
    louchenabc
        16
    louchenabc  
    OP
       2022-04-07 19:37:47 +08:00
    @0o0O0o0O0o 非常感谢,提供了两个很好的资源。

    目前计划插件部分开源,我只做好记录、检索和查看这个部分,标注收藏等功能交由其他软件,暂时还没有做服务端的想法。
    chotow
        17
    chotow  
       2022-04-07 19:59:06 +08:00
    隐私是最重要的一点,毕竟可以接触到一个人所有的浏览内容。需要做到安全,才能让用户放心使用。
    帖子里提到「包括文章、推特、微博等形式的内容」,那么考虑整个网页吗?类似于 Internet Archive ,我想保存整个页面,甚至希望有快照——那么查看时还可以看到一个页面在不同时间点的变化。
    实时记录?抑或是手动记录?我可能希望是实时,不想还要再多点一(几)下,类似于浏览器的浏览历史。如果是实时记录,那就要考虑要存哪些数据,数据量会不会爆炸式增长。
    我还想要记录当时所使用的设备信息,以及更多的环境细节,包括但不限于操作系统、浏览器、地理位置。
    数据的查看,除了日常的快速检索,还希望有统计大盘,自己可以给自己来一个总览。
    googlefans
        18
    googlefans  
       2022-04-07 20:01:27 +08:00
    WorldBrain https://memex.garden
    auh
        19
    auh  
       2022-04-07 20:05:57 +08:00
    提个应用想法:
    单纯的日志检索,价值有限。配上几个王炸级别的数据应用就很强。数据应用,
    kiko12324
        20
    kiko12324  
       2022-04-07 22:35:03 +08:00
    webdav 云服务,google ,Dropbox 等,能够同步是最好的,难免在本地有意外。最核心的内容是记录网页上网的关键词吗?感觉有点像标注的功能了?
    kiko12324
        21
    kiko12324  
       2022-04-07 22:35:16 +08:00
    @3dwelcome 老哥能用用吗?看着挺好玩的
    kiko12324
        22
    kiko12324  
       2022-04-07 22:36:09 +08:00
    希望周刊能一直坚持下去
    louchenabc
        23
    louchenabc  
    OP
       2022-04-07 23:09:00 +08:00
    @kiko12324 是将内容也记录下来,全部记录下来的部分不建议选择保存到网盘,会提供收藏内容的功能,这部分可以选择保存到网盘。

    最核心的是将网上看到的东西保存为结构化的内容,并提供本地的快速搜索引擎,方便查找和查看,查看后也可以选择收藏重要内容。
    wuzhi1234
        24
    wuzhi1234  
       2022-04-08 00:27:51 +08:00 via iPhone
    Cubox 就有类似的功能,安装插件后,记录所有浏览记录
    louchenabc
        25
    louchenabc  
    OP
       2022-04-08 00:41:18 +08:00
    @wuzhi1234 理念有相似之处,不过实现方式不一样,一个是 sass 服务,一个是本地服务,这个工具也不仅仅是保存浏览历史记录,而是保存浏览的内容,对于推特、微博等异步加载的内容也会保存。
    3dwelcome
        26
    3dwelcome  
       2022-04-08 09:19:04 +08:00
    @louchenabc "对于推特、微博等异步加载的内容也会保存。"

    那就必须要递归抓取页面的根 DOM 才行,感觉还是挺费工作量的。
    Martin123123
        27
    Martin123123  
       2022-04-08 09:26:31 +08:00
    实际上我并不觉得这种方式好,我觉得可能插件+私有化部署 /云端的方式会更加适合,毕竟本地客户端的形式注定了只能单台设备去使用,而私有化部署也可以实现类似于本地客户端的方式
    louchenabc
        28
    louchenabc  
    OP
       2022-04-08 10:09:18 +08:00
    @martin19980418 目标是做成一个轻工具,如果做成 sass 服务,这个数据量太大了,而这个又是小众需求,投入产出不成正比,并且使用便捷性也会打折扣。
    gledos
        29
    gledos  
       2022-04-08 10:39:38 +08:00
    之前看到过 [internetarchive/warcprox]( https://github.com/internetarchive/warcprox) 这个工具,通过中间人(抓包)的方式保存 http(s) 的流量为 Web ARCHive (WARC) 文件格式。

    [ActivityWatch]( https://activitywatch.net) 能记录浏览器访问的链接时间。

    不过能够检索全文 …… 感觉复杂性就上升了许多吧。
    panda1001
        30
    panda1001  
       2022-04-08 10:57:45 +08:00
    这个想法不错,准备自己动手做一个,利用 Chrome 远程调试 + seleuimn 记录浏览数据
    ivyliner
        31
    ivyliner  
       2022-04-09 07:39:19 +08:00
    确实有这方面的需求啊. 特别是瀑布流的网站比如 Twitter, 不小心刷新, 经常看了之后找不到, 没有历史记录, 如果能解决这个问题我会付费.
    我的主要需求
    1. 数据隐私性 (不要上传我的浏览记录什么的)
    2. 搜索
    3. 易用性(最好是一个浏览器插件, 打开后台默默运行)
    FrankAdler
        32
    FrankAdler  
       2022-04-09 16:21:52 +08:00 via iPhone
    很多站点可能需要登陆态,当时不保存下来后续(比如异步)可能就很难补上,这在移动端是个麻烦事
    szkoda
        33
    szkoda  
       2022-04-24 19:37:31 +08:00
    移动端怎么做?视频和音频怎么记录呢(如短视频 app )
    zxhy
        34
    zxhy  
       2022-05-21 07:21:13 +08:00
    有类似的插件了
    louchenabc
        35
    louchenabc  
    OP
       2022-05-22 02:11:38 +08:00
    @zxhy 是说 memex 吗?它已经改变最开始做的初衷了,现在没有这种功能。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2819 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 09:31 · PVG 17:31 · LAX 01:31 · JFK 04:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.