V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
gdm
V2EX  ›  问与答

几万条网页剪藏,且在不断增加中,如何便捷的管理与检索?

  •  
  •   gdm · 2020-12-04 04:47:46 +08:00 · 3766 次点击
    这是一个创建于 1450 天前的主题,其中的信息可能已经有所发展或是发生改变。
    今有文科的 C 教授,因论文研究需要,收藏了约三万条网页新闻内容,且每年还会增加两三千条。
    任何资料多了,管理都很麻烦。目前 C 教授使用某古老版本的 FileMaker Pro 来管理这些网页内容,所有内容都由助理来录入新闻的日期、来源、正文、C 教授的评论,及 C 教授特有的几大 tags 。可是 FileMaker Pro 的性能其实也没很好,基本上要一年做一个 database,现在已经收集了十几年,所以,比如要在新闻里面找「 APEC 」,C 教授需要一个一个 database 的打开,然后搜索,效率低下,而且会破坏思路……
    C 教授也使用 Evernote 来记笔记,所以在考虑改用 Evernote 来搜集,并逐渐将 FileMaker Pro 搜集好的内容转移到 Evernote 。我担心 Evernote 跑不动他这三万,最后还是要一两年一个号。而且 Evernote 有 tags 上限,最多十万,其实是不太够用的。
    可能也可以新东西就 Evernote,毕竟 Evernote 的剪藏好用,而旧的三万条就转去某个便于检索的软件。这样分两个检索应该还不至于麻烦死人。
    大家有什么建议的软件吗?
    38 条回复    2022-08-26 12:06:57 +08:00
    Ettup
        1
    Ettup  
       2020-12-04 05:10:20 +08:00 via iPhone
    TimePPT
        2
    TimePPT  
       2020-12-04 08:34:13 +08:00 via Android
    有助理整理,且这么大的量,直接搭个 wiki 吧,后端检索如果想优化单接个 ES,有一点开发成本,但既然是刚需就有必要
    err1y
        3
    err1y  
       2020-12-04 08:44:47 +08:00 via iPhone
    https://www.v2ex.com/t/730574

    这个项目想解决的一部分问题就包括你说的这个事情。未来半年到一年内差不多可以实现(现在还处于理念雏形阶段)
    gdm
        4
    gdm  
    OP
       2020-12-04 08:52:43 +08:00
    谢谢答复。为什么收藏比回复多啊?

    @Ettup 然鹅教授办公室、laptop 、家里的电脑全都用 Windows……

    @TimePPT 助理都是些大二大三的中文系女生,约等于打字员,没有维护能力。搭建好后几年教授要换电脑时又可能会发生灾难,所以教授倾向于使用成品软件……
    AndyAO
        5
    AndyAO  
       2020-12-04 08:57:10 +08:00   ❤️ 1
    我的收藏比这个教授更恐怖,不仅有大量的网页(Chrome 有保存到本地的扩展,很棒),还有很多很多的电子书(图片版都自动 OCR 了)。

    方法是直接全文检索(Windows 有专门的接口),这方面的工具有很多支持,布尔表达式(NEAR 好用爆了)和正则表达式,几乎可以满足所有的需求。

    目前不管是笔记,电子书还是检查,全部是在本地的,数据完全在自己手里,想怎么弄就怎么弄。
    AndyAO
        6
    AndyAO  
       2020-12-04 08:58:32 +08:00   ❤️ 1
    每次我查资料的时候,只要输入表达式,例如(结构化编程 NEAR 数学),然后我很快就能听到风扇巨大的轰鸣声,之后就把这两个词相邻的所有文档全给列出来了,而且我能一目了然的直接查看里面的内容根本就不用切换界面。
    vsitebon
        7
    vsitebon  
       2020-12-04 09:09:28 +08:00   ❤️ 1
    如果只是要保存内容,那就只保存纯文本文件(例如 markdown,方便后期索引);
    然后用本地检索软件,例如 Filelocator 进行检索,然后因为有好几万个,tags 也有好几万个,那就专门在文本中直接保留原始的#标签,另外再整理一份完整的 #tag 列表,也可以专门去找打 tag 软件;
    至于为了查看,那就用各种 markdown 查看软件(目前有朋友一万三千个笔记也是这样整理
    不过他还会用 devonthink 来分析整理
    gdm
        8
    gdm  
    OP
       2020-12-04 09:11:32 +08:00
    @err1y 祝早日完成


    @AndyAO 自己弄全文检索问题在于 tags 的管理,我以前和教授建讨论过 DocFetcher 配合 markdown,后来还是因为 tags 的问题放弃,因为 tags 对文科研究者而言是攸关论文主轴和理论框架的问题
    AndyAO
        9
    AndyAO  
       2020-12-04 09:15:29 +08:00
    感觉如果 tags 是标签的意思,例如印象笔记中的标签,那么不妨碍在本地使用全文检索,感觉对于程序员来说解决起来应该是非常简单的。
    laike9m
        10
    laike9m  
       2020-12-04 09:24:14 +08:00 via Android
    建议不要用印象笔记。主要是因为印象笔记的搜索并不好,而且我<1w 的笔记量有时候已经很卡了。不过具体用什么,我也不知道,毕竟印象的剪藏还是无可匹敌的
    gdm
        11
    gdm  
    OP
       2020-12-04 09:29:15 +08:00
    @AndyAO 由于教授只使用不到十个 tags 来归纳他的三万剪藏,一个 tag 的结果会有几千条,呈现效率会比较恶心,而且打断思路。教授是文科的,不是程序员,他只想要一款由程序员精心制作的软件来帮他解决问题……

    @vsitebon 这和最初讨论过的方案比较接近,但由于教授还需要在多台电脑上作业,打 tags 软件不太好同步


    @laike9m 谢谢提醒,果然还是不能用 Evernote——虽然我最近发现做网页收集的文科教授们都很爱用这货
    laike9m
        12
    laike9m  
       2020-12-04 09:30:05 +08:00 via Android
    @gdm 如果你找到更好的替代品可以提醒我一下。我因为历史原因还在用
    vsitebon
        13
    vsitebon  
       2020-12-04 09:31:45 +08:00
    @gdm 我的意思是直接在文本中加上对应的标签列,例如

    # 新闻标题

    #标签 1 #标签 2 #标签 3

    {摘录日期}

    {内容}

    {评论(外部的另说)}

    然后另外维护一个列表,包括#标签 1 #标签 2 #标签 3,然后用 Filelocator 每次检索的时候,直接加上标签 #标签 1,然后内容,支持的索引的话,纯文本文件会非常快。

    如何解决图片内容以及 扫描版 pdf 的本地内容管理,这里还另外建议 ABBYY 。

    理论上这个工作流,会很方便;但是如果希望自己每次填充标签的时候,能够有类似搜索建议的弹窗,那我现在就只能推荐各种本身支持 tag 的 markdown 软件,或,如上所说的,单独维护一个标签列表,每次在打标签的时候,同时检索一下之前也没有类似的标签。

    所以最后问题落在,如何在每次输入#标签 1.1 的时候会建议#标签 1,
    gdm
        14
    gdm  
    OP
       2020-12-04 09:43:39 +08:00
    @vsitebon 我觉得他打 tags 是需要外部呈现的,可能会拿来 sort 或是怎样,总之他强调过多次 tags 对他而言很重要。可能是因为他论文还在构建,可能还存在某些逻辑上的欠缺或模糊,所以对我表述时并不是特别清晰
    由于是很纯文科的教授,不太用理科的思维去思考,不过我会根据你的建议,向他介绍理科思维,谢谢


    @laike9m 看了你的回复我终于明白为什么收藏人数大于回复人数了 XD
    cmdOptionKana
        15
    cmdOptionKana  
       2020-12-04 09:55:57 +08:00
    TimePPT
        16
    TimePPT  
       2020-12-04 09:58:00 +08:00
    @gdm 搭 wiki 当然是服务器上搭,直接 web 登录,换哪个电脑都没所谓了
    AndyAO
        17
    AndyAO  
       2020-12-04 10:22:28 +08:00
    @gdm #11

    场景是这样吗?也就是十几个标签管理,上万个电子书,点开每个 tag,那么每次的话需要展示上千个文档.

    你这里说一下我想到的东西,也许会对你有点用

    1. 对于某个表达式进行搜索和排序,并且返回结果,速度应该是非常快的。如果你的软件做不到那么不太合适。
    2. 展示几千个文档,这个当然是不可能的,也是不需要的。如果你的软件是直接这么列出来的,那么它本来就不适合这种场景。

    **百度或谷歌搜索引擎就是这样的,返回速度非常快,但只会返回并渲染 10~20 个结果。这种解决方案在很多的其他 App 也都有,是很成熟的。**

    前几天看到过有个人在做这方面的工作,好像也在 V2EX 发过贴,叫做归海数据.我曾经试用过,或许能解决这种情况?

    https://i.loli.net/2020/12/04/KZhmpnQNWXqGFUl.png

    ***

    还有就是我不太明白为什么会有『一个 tag 的结果几千条,呈现效率会比较恶心,而且打断思路』的情况出现,如果要搜索资料库的话,应该不会直接匹配搜索库的 1/10 。

    按照我的理解,出现这种情况的话,教授可能会这样搜索,`tags:历史`如果真是这样的话,我是没有办法理解教授的行为,这种关键词能查出什么东西?返回的内容太多太多.

    如果不是,**可以把教授的搜索关键词发上来**.
    coolair
        18
    coolair  
       2020-12-04 10:55:10 +08:00
    你可以去微博问问伞哥,他的收藏估计比 C 教授还多。
    vsitebon
        19
    vsitebon  
       2020-12-04 10:56:10 +08:00
    @gdm 其实关于标签管理,完全可以用类似杜威十进制或中国图书馆的类别进行管理,以下是我的笔记(标签管理)实例以及具体类别实例:

    https://imgur.com/nwIdyFa

    https://imgur.com/eIA4YOU

    然后如果担心实在太多太多,那就将同类别的标签,新建一个页面,用于管理;因为类别大概率只会有几个(而且不会增加),但是类别内的关键词可能会大幅度增加,这样可以保证未来的可验证能力

    而且我特地推荐这种纯文本+#标签的方式的原因是,我此前也用 Evernote Notion 等,当你仅需要保留文件内容检索的时候,这两者都会遇到性能瓶颈,因为他们并不是专门的检索应用;

    专业的事情应该由专业的软件去做,笔记软件可以用任意能写纯文本的软件,裁剪用专门的裁剪插件,检索也可以用你所说的 Docfetcher 或者我提到的 fileLocator 。
    vsitebon
        20
    vsitebon  
       2020-12-04 10:58:06 +08:00   ❤️ 1
    echowuhao
        21
    echowuhao  
       2020-12-04 14:40:34 +08:00
    没有一个用 NAS 的。

    买一个 NAS,我用的威联通有 Qsirch,chrome 有 Qsirch Helper 插件。

    买个性能好的 NAS,全部 SSD 。 几万,几十万文件不在话下。

    即使没有搜索需求那么多重要文件,也该考虑 NAS 备份了。
    NasirQ
        22
    NasirQ  
       2020-12-04 14:59:43 +08:00
    威联通+1
    Qsirch 很好用
    组个 RAID,备份安全。
    tankren
        23
    tankren  
       2020-12-04 15:30:26 +08:00
    至少弄个文件服务器或者 NAS 吧 多终端才方便
    sun1991
        24
    sun1991  
       2020-12-04 17:08:05 +08:00
    无责任推荐 MyBase [http://www.wjjsoft.com/mybase.html], 最近正在考虑从 Evernote 转.
    sillydaddy
        25
    sillydaddy  
       2020-12-04 17:28:05 +08:00 via Android
    @vsitebon 这些 tags 的列表是 obsidian 里面的结构吗?看着像是 wiki
    sunbreak
        26
    sunbreak  
       2020-12-04 17:31:32 +08:00
    vsitebon
        27
    vsitebon  
       2020-12-04 19:28:44 +08:00
    @sillydaddy 是 Obsidian
    gdm
        28
    gdm  
    OP
       2020-12-04 22:00:52 +08:00
    @cmdOptionKana 这看起来蛮酷的,我觉得是个不错的方案

    @TimePPT 文科教授没有购置服务器的经费,只能用办公室电脑本地搭建,助理可能都没听过 Linux,不太可能让他们弄这个

    @AndyAO 不是十几个 tags 管理,而是写论文就是要集中你的主题,不可能分散到几百个主题里面,那写不出论文。所以教授用的 tags 不到十个。我也觉得他的需求近乎桌面搜索,但可能他对搜索结果的呈现要求比较高。
    关键词比如「画像」,tags 比如「族群」,涉及象征政治学、agnotology 、社会动力学等理论,v2ex 看过的人应该不超过十个。

    @vsitebon 一般人收集的东西啥都有,而 C 教授收集的东西用图书分类法来分的话,几乎全在一两个子类里面。

    @echowuhao 谢谢,我会建议他试试看,不过 Linux 对他来说会是大问题

    @sun1991 量少的时候 mybase 确实很不错,我担心的是 3 万以上的量,搜索会故障

    @sunbreak 这看起来是阅读插件? C 教授不太有这类需求,因为他全都看过了
    whatalittleboy
        29
    whatalittleboy  
       2020-12-04 22:12:29 +08:00
    “Archivarius 3000 – 是一个搜索计算机上,局域网上和可移动驱动器( CD,DVD )上的文档和电子邮件. 文档可以使用关键字或使用查询语言进行搜索, 和在 Internet 搜索引擎一样”

    虽然这个软件界面设计很古老,但全文检索真的牛逼,支持的格式还贼多;另外,网页可以用 chrome 插件 SlingFile 保存为单个 html 文件,图文都能原样式保存下来

    https://sm.ms/image/uKWbn8Ix14Qp6fG

    http://www.likasoft.com/cn/document-search/
    echowuhao
        30
    echowuhao  
       2020-12-04 22:21:41 +08:00 via Android
    nas 设置一下花几个小时 然后就都是网页访问 花 2000 块买一个回来玩玩就知道了 这可能是最好的方案了
    Kyon945
        31
    Kyon945  
       2020-12-05 12:10:30 +08:00   ❤️ 1
    SingleFile (浏览器扩展) 离线保存网页
    简悦(浏览器扩展)网页上广告比较多的用简悦保存为离线 html
    网页剪贴簿(浏览器扩展)+ Everything 本地 http 服务后给离线网页做笔记
    Archivarius3000 ( Win )完美实现 PDF / markdown / html / mobi / epub / azw3 / txt 格式全文搜索
    手机是 iPhone,用 iCloud 同步笔记到手机端,iPhone 自带的文件 APP 可以完美打开离线 html 网页/ PDF...

    这大概是我的方案
    AX5N
        32
    AX5N  
       2020-12-06 20:39:23 +08:00
    @gdm 你的教授的习惯是这样吗——看到不错的东西,保存下来后并且打上 tag 。等需要的时候,输入 tag,然后软件把所有的该 tag 下的文章给找出来。还是说不仅要搜索 tag,还要搜索正文内容?
    panyuz
        33
    panyuz  
       2021-10-10 21:52:29 +08:00 via iPhone
    教授最后选择了哪个方案? @gdm
    panyuz
        34
    panyuz  
       2021-10-10 21:55:24 +08:00 via iPhone
    @AndyAO 支持 near 的是哪个软件?
    AndyAO
        35
    AndyAO  
       2021-10-11 06:09:31 +08:00
    @panyuz FileLocator 布尔表达式
    gdm
        36
    gdm  
    OP
       2021-10-11 08:36:54 +08:00
    @panyuz 由于对检索速度太执着,目前使用了一个很古老的佛经搜索软件叫 accelon 3,最新的东西就在文件名上打好 tags,然后用 everything 来搜
    voidtools
        37
    voidtools  
       2022-08-26 12:04:33 +08:00 via Android
    @AndyAO 帖子很久了,但是想问一下。有没有用过 filel0cator 的命令行模式我碰到一个问题。布尔正则表达式在图形化界面正常,在命令行模式就出现错误,无法解析。
    voidtools
        38
    voidtools  
       2022-08-26 12:06:57 +08:00 via Android
    @AndyAO 帖子很久了,但是想问一下。有没有用过 filel0cator 的命令行模式我碰到一个问题。写了个布尔正则表达式在图形化界面正常,在命令行模式就出现错误,无法解析。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   933 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 20:48 · PVG 04:48 · LAX 12:48 · JFK 15:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.