V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
FrankAdler
V2EX  ›  程序员

保存浏览过的网页并搜索有哪些好的方案

  •  
  •   FrankAdler · Feb 28, 2023 · 3646 views
    This topic created in 1162 days ago, the information mentioned may be changed or developed.

    目前用 SingleFile 自动保存到 webdav ,但是搜索是个问题,理想情况是有个 web 界面,目前没有找到合适的工具,暂时是用命令行 find+grep ,感觉不太方便。

    了解了下两个轻量级的全文搜索:ZincSearch 、blevesearch ,还没深入是看,但是感觉也应该需要想办法把网页内容导入到引擎里面,不知道还有没有其他的方案。

    尽量轻量级一些,ES 太重了首先排除掉吧。

    Supplement 1  ·  Mar 1, 2023
    archivebox 的浏览器插件用起来很怪异,提交到 archivebox 有延迟,没有规律,而且不能设置验证,等于是自己搭的服务公开了。。。
    22 replies    2023-03-04 14:58:03 +08:00
    TrembleBeforeMe
        1
    TrembleBeforeMe  
       Feb 28, 2023   ❤️ 3
    FrankAdler
        2
    FrankAdler  
    OP
       Feb 28, 2023
    @TrembleBeforeMe 这个看起来好强,我先研究下看看
    caomu
        3
    caomu  
       Feb 28, 2023 via Android
    前段时间还讨论了一下
    https://www.v2ex.com/t/916365
    tool2d
        4
    tool2d  
       Feb 28, 2023
    自己写一个 vscode 插件,find in files 文本搜搜嘛可以了。

    低频需求,性能要求不需要那么高。
    FrankAdler
        5
    FrankAdler  
    OP
       Feb 28, 2023   ❤️ 1
    @caomu https://www.v2ex.com/t/798536 lockheart 提到的 https://historio.us 也是一种选择,感觉很类似私人引擎了
    FrankAdler
        6
    FrankAdler  
    OP
       Feb 28, 2023
    @tool2d 可能还不如 find+grep 呢,就是要 ssh 下
    607L4a6qlLSEi6vy
        7
    607L4a6qlLSEi6vy  
       Feb 28, 2023
    语雀的剪存
    607L4a6qlLSEi6vy
        8
    607L4a6qlLSEi6vy  
       Feb 28, 2023
    飞书的剪存
    fds
        9
    fds  
       Feb 28, 2023
    前两天看到 https://github.com/omnivore-app/omnivore 不过我没用过
    tool2d
        10
    tool2d  
       Feb 28, 2023
    @FrankAdler mhtml 需要解包,至少不去搜索 base64 里的图片。

    还需要定位跳转,搜出来结果,你总要看一下上下文吧。

    还有一些不是 utf8 格式的页面需要转换,又或者不是一个个独立文件,文件多了后,是定期 zip 打包这种形式存在于磁盘上的。

    退一万步,就算直接用 find 命令行,我也会写一个自己特化的管道过滤工具,码农不就是写工具的。
    ipfox
        11
    ipfox  
       Feb 28, 2023
    chrome 插件 Chrono Power Action
    Giftina
        12
    Giftina  
       Feb 28, 2023   ❤️ 2
    SingleFile 存到本地后搭配 hamsterbase 即可
    Huelse
        13
    Huelse  
       Feb 28, 2023
    感觉有点像 onetab 的功能
    abcdxe2v
        14
    abcdxe2v  
       Feb 28, 2023   ❤️ 1
    @FrankAdler
    historio.us 这个不行,很多网页抓取不到(可能是因为动态加载的原因)
    由于我需要正则,所以我是 SingleFile 保存后,用 FileLocator Pro (因为是正则,所以无索引)
    ztbz123
        15
    ztbz123  
       Feb 28, 2023
    @abcdxe2v 我也这样,但 FileLocator Pro 检索和预览 HTML ,是源代码 html 标签的形式,html 标签和样式比较多,看着不太直观方便,有没有什么解决方法?比如,能不能设置 FileLocator Pro 预览 HTML 格式文件时,可通过浏览器预览展示
    zictos
        16
    zictos  
       Feb 28, 2023
    试过很多,没一个好用的,很多明明看过的文字却搜不到。现在很多网站又都是 js 动态加载,就更可能搜不到了
    FrankAdler
        17
    FrankAdler  
    OP
       Feb 28, 2023 via iPhone
    @zictos archivebox 可以抓起 js 动态加载的(基于无头浏览器)
    FrankAdler
        18
    FrankAdler  
    OP
       Feb 28, 2023 via iPhone
    @ztbz123 可能保存的时候不要 css 样式会好很多?毕竟内容才是最重要的
    tinola
        19
    tinola  
       Mar 1, 2023
    以前用网文快捕 CyberArticle 可以离线保存,后来不更新了,可惜。现在用 onetab.
    edis0n0
        20
    edis0n0  
       Mar 1, 2023
    @TrembleBeforeMe #1 这个要登录的页面就不行,好文章很多都要登陆才能看
    abcdxe2v
        21
    abcdxe2v  
       Mar 1, 2023
    @ztbz123
    “通过浏览器预览展示”
    这样不慢吗。。。浏览器打开要渲染,太慢了。你可以手动使用浏览器打开特定的文件
    woyaojizhu8
        22
    woyaojizhu8  
       Mar 4, 2023
    recoll 最合适,而且也有 webui
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2547 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 64ms · UTC 11:02 · PVG 19:02 · LAX 04:02 · JFK 07:02
    ♥ Do have faith in what you're doing.