V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
FrankAdler
V2EX  ›  程序员

保存浏览过的网页并搜索有哪些好的方案

  •  
  •   FrankAdler · 2023-02-28 11:43:05 +08:00 · 2820 次点击
    这是一个创建于 617 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前用 SingleFile 自动保存到 webdav ,但是搜索是个问题,理想情况是有个 web 界面,目前没有找到合适的工具,暂时是用命令行 find+grep ,感觉不太方便。

    了解了下两个轻量级的全文搜索:ZincSearch 、blevesearch ,还没深入是看,但是感觉也应该需要想办法把网页内容导入到引擎里面,不知道还有没有其他的方案。

    尽量轻量级一些,ES 太重了首先排除掉吧。

    第 1 条附言  ·  2023-03-01 14:46:42 +08:00
    archivebox 的浏览器插件用起来很怪异,提交到 archivebox 有延迟,没有规律,而且不能设置验证,等于是自己搭的服务公开了。。。
    22 条回复    2023-03-04 14:58:03 +08:00
    TrembleBeforeMe
        1
    TrembleBeforeMe  
       2023-02-28 12:34:14 +08:00   ❤️ 3
    FrankAdler
        2
    FrankAdler  
    OP
       2023-02-28 13:09:51 +08:00
    @TrembleBeforeMe 这个看起来好强,我先研究下看看
    caomu
        3
    caomu  
       2023-02-28 13:15:48 +08:00 via Android
    前段时间还讨论了一下
    https://www.v2ex.com/t/916365
    tool2d
        4
    tool2d  
       2023-02-28 13:18:59 +08:00
    自己写一个 vscode 插件,find in files 文本搜搜嘛可以了。

    低频需求,性能要求不需要那么高。
    FrankAdler
        5
    FrankAdler  
    OP
       2023-02-28 13:44:06 +08:00   ❤️ 1
    @caomu https://www.v2ex.com/t/798536 lockheart 提到的 https://historio.us 也是一种选择,感觉很类似私人引擎了
    FrankAdler
        6
    FrankAdler  
    OP
       2023-02-28 13:44:27 +08:00
    @tool2d 可能还不如 find+grep 呢,就是要 ssh 下
    vtexer
        7
    vtexer  
       2023-02-28 13:47:10 +08:00
    语雀的剪存
    vtexer
        8
    vtexer  
       2023-02-28 13:47:45 +08:00
    飞书的剪存
    fds
        9
    fds  
       2023-02-28 13:55:35 +08:00
    前两天看到 https://github.com/omnivore-app/omnivore 不过我没用过
    tool2d
        10
    tool2d  
       2023-02-28 13:57:08 +08:00
    @FrankAdler mhtml 需要解包,至少不去搜索 base64 里的图片。

    还需要定位跳转,搜出来结果,你总要看一下上下文吧。

    还有一些不是 utf8 格式的页面需要转换,又或者不是一个个独立文件,文件多了后,是定期 zip 打包这种形式存在于磁盘上的。

    退一万步,就算直接用 find 命令行,我也会写一个自己特化的管道过滤工具,码农不就是写工具的。
    ipfox
        11
    ipfox  
       2023-02-28 15:53:27 +08:00
    chrome 插件 Chrono Power Action
    Giftina
        12
    Giftina  
       2023-02-28 16:42:22 +08:00   ❤️ 2
    SingleFile 存到本地后搭配 hamsterbase 即可
    Huelse
        13
    Huelse  
       2023-02-28 16:53:10 +08:00
    感觉有点像 onetab 的功能
    abcdxe2v
        14
    abcdxe2v  
       2023-02-28 16:54:27 +08:00   ❤️ 1
    @FrankAdler
    historio.us 这个不行,很多网页抓取不到(可能是因为动态加载的原因)
    由于我需要正则,所以我是 SingleFile 保存后,用 FileLocator Pro (因为是正则,所以无索引)
    ztbz123
        15
    ztbz123  
       2023-02-28 17:09:46 +08:00
    @abcdxe2v 我也这样,但 FileLocator Pro 检索和预览 HTML ,是源代码 html 标签的形式,html 标签和样式比较多,看着不太直观方便,有没有什么解决方法?比如,能不能设置 FileLocator Pro 预览 HTML 格式文件时,可通过浏览器预览展示
    zictos
        16
    zictos  
       2023-02-28 17:10:59 +08:00
    试过很多,没一个好用的,很多明明看过的文字却搜不到。现在很多网站又都是 js 动态加载,就更可能搜不到了
    FrankAdler
        17
    FrankAdler  
    OP
       2023-02-28 21:27:41 +08:00 via iPhone
    @zictos archivebox 可以抓起 js 动态加载的(基于无头浏览器)
    FrankAdler
        18
    FrankAdler  
    OP
       2023-02-28 21:28:57 +08:00 via iPhone
    @ztbz123 可能保存的时候不要 css 样式会好很多?毕竟内容才是最重要的
    tinola
        19
    tinola  
       2023-03-01 10:35:41 +08:00
    以前用网文快捕 CyberArticle 可以离线保存,后来不更新了,可惜。现在用 onetab.
    edis0n0
        20
    edis0n0  
       2023-03-01 11:15:35 +08:00
    @TrembleBeforeMe #1 这个要登录的页面就不行,好文章很多都要登陆才能看
    abcdxe2v
        21
    abcdxe2v  
       2023-03-01 11:23:53 +08:00
    @ztbz123
    “通过浏览器预览展示”
    这样不慢吗。。。浏览器打开要渲染,太慢了。你可以手动使用浏览器打开特定的文件
    woyaojizhu8
        22
    woyaojizhu8  
       2023-03-04 14:58:03 +08:00
    recoll 最合适,而且也有 webui
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5511 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 09:25 · PVG 17:25 · LAX 01:25 · JFK 04:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.