V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
gdm
V2EX  ›  问与答

求个人 wiki 。请教有没有适合快速搜索大量文本文件的软件?

  •  
  •   gdm · 2013-04-03 20:55:45 +08:00 · 6800 次点击
    这是一个创建于 4251 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如题,有上千个纯中文 txt ,加起来大概 700mb ,未来会继续增加。并且,希望出搜索结果时能看到文本文档的标题。
    本人 windows 用户,需要 windows 下的方案,至少是 cygwin 能跑的方案。

    考虑过 vimwiki ,但是命令繁琐,搜索还要切输入法。而且对付这么多文档,速度也不行了。
    考虑过放 jekyll ,但想想一来 google 的蜘蛛可能不抓,二来这么多东西放一个 repo 万一 github 封号咋办,这不白传了么……
    考虑过 google 桌面搜索之类,但据说索引慢,而且希望有稍微便携一点的手段。
    考虑过搭建 mediawiki ,这方案解决了搜索和显示的问题,但这么大的数据库一台破电脑能跑得动么?之前用 wordpress 弄个人小站就曾经被凌乱无比的数据库恶心过,对这类方案比较小心。
    考虑过 stardict/goldendict ,但是辞典制作起来好像不是那么轻松,而且不方便以后添加。
    考虑过 evernote ,慢,做笔记一直 onenote ,从不搜笔记,没比对过笔记软件的搜索功能。

    说一下为什么需要吧。原来有个百度国学,很简陋,书也少,但挺方便。后来可能这项目不赚钱,悄无声息的砍掉了。打算自建一个类似的东西。
    总之需求不高:搜索、便于增删、速度。界面丑无所谓,也不需要图片和富文本。对这方面不大了解,求推荐。
    22 条回复    2020-01-12 20:36:30 +08:00
    clino
        1
    clino  
       2013-04-03 21:07:30 +08:00
    嫌evernote慢的话,试试它的中国版本 yinxiang.com ?
    Errpt
        2
    Errpt  
       2013-04-03 21:25:08 +08:00 via iPad
    试试mybase这个软件,效率高。
    gdm
        3
    gdm  
    OP
       2013-04-03 21:30:38 +08:00
    @clino 那个, evenote 慢不是说他的同步慢,而是软件本身比较慢的感觉,尝试一个小文件夹,隔了蛮久才导进去, 700mb 不知道要搞多久。
    话说, 700mb 的原始数据不大可能放在笔记软件去同步。而且有用 evernote 的朋友说, evenote 搜中文经常不太灵光,可能是因为中文没有空格分词。
    笔记软件还是比较适合做个人化整理,我的需求偏向于收藏和搜索,基本上不整理,或者说我太依赖文本编辑器,脱离了文本编辑器基本上不愿做任何编辑,所以就不整理了……
    gdm
        4
    gdm  
    OP
       2013-04-03 21:52:38 +08:00
    @Errpt 哗,这个软件还有人记得哦。
    其实也试过,手工贴了大约 9mb 的资料进去,结果一个词搜索就用了大约 8 秒, 700mb 的话大概会比较吃力,就没继续尝试。
    另外不知为什么使用他的导入成子条目功能导入东西会乱码?而且是全都乱码,不管是 gb 还是 utf8 ……好郁闷

    果然好的搜索引擎不是说来就来的。
    在本站看到个 dokuwiki ,一会搭个 php 环境试试看~
    amyhyde
        5
    amyhyde  
       2013-04-03 21:53:17 +08:00
    试试drupal
    yibie
        6
    yibie  
       2013-04-04 00:31:12 +08:00
    建议使用 Emacs+Org-mode 的解决方案:

    - 完全兼容纯文本
    - 配合插件可全局文本搜索,效率不错
    - Org-mode 使用简单,完全适合当做本地维基使用

    -----

    如果以上都觉得繁琐,那么只有 WikidPad、Zim 才能满足你了。
    mkeith
        7
    mkeith  
       2013-04-04 01:35:37 +08:00 via Android
    Google drive
    Livid
        8
    Livid  
    MOD
       2013-04-04 01:54:51 +08:00
    gdm
        9
    gdm  
    OP
       2013-04-04 09:52:00 +08:00
    @amyhyde 配置了一下不会弄导入,这个不是 wp 那种傻瓜 cms ,看来需要认真研究一下。
    @yibie Emacs+Org-mode 不是繁琐,而是学习曲线陡直……有时间学习一下。
    @mkeith gdrive 似乎只找到文件,不高亮包含关键词的句子。也许咱打开的方式不对,再研究下。
    @Livid 虽然不懂是什么,不过看起来很高深的样子。装一下 java 试试看。
    laoyang945
        10
    laoyang945  
       2013-04-04 10:51:33 +08:00
    既然重点是搜索,还是纯文本,那用windows 自带搜索不就得了
    而且你不是用onenote么,里面的搜索一样是windows自带的
    Betty
        11
    Betty  
       2013-04-04 19:54:06 +08:00
    只是个人用,不用放到网上的话,用 EmEditor,文件都扔在一个文件夹下面,选择“在文件夹中查找”。应该是最完美满足楼主要求的。
    几百兆的东西,我觉得用 PHP、数据库什么的一定会更慢吧……
    gdm
        12
    gdm  
    OP
       2013-04-06 03:35:27 +08:00
    感谢大家~

    @laoyang945
    自带微软家在搜索方面一向不太在行,自带搜索很慢, onenote 搜个 70mb 的无图数据库已经相当够呛了。
    @Betty
    EmEditor 是我现在正在使用的文本编辑器,非常喜欢,现在暂时还用着他的搜索。
    但是 EmEditor 处理这堆 700mb 的数据库确实比较吃力,搜索经常经历 60 秒以上。用数据库应该会快,比如辞典软件,一般来说数据增加并不降低其搜索速度,不管数据库多大都一样快。但是辞典是比较固定的东西,而我的数据还在增加(这几天又增加了 30mb ),所以没法用辞典……
    clino
        13
    clino  
       2013-04-06 20:33:31 +08:00
    @gdm 没有仔细看你说的,其实你这个东东用桌面搜索就行了
    我自己的经验是建议你用百度的桌面搜索,因为百度的支持用白名单的方式设置目录的索引,这样不会在整个电脑范围内做索引,你可以配置成只索引你的这个文本文件的目录,这样索引其实是很快的,即使是第一次,后面的增量索引就更不用说了
    batfree
        14
    batfree  
       2013-04-07 09:26:45 +08:00
    opengrok 试试,虽然是索引代码的。但对于文件应该没有问题。 我们几个G的Android源码就用它索引的,搜索速度非常快。
    Semidio
        15
    Semidio  
       2013-04-07 17:22:24 +08:00
    如果不需要检索文件内容的话首推Everything。
    否则,可以试试DocFetcher,我测试了一下,一个378M的全TXT文件夹,文件数647,初次建立索引耗时2分15秒,之后关闭重开(貌似初次建立索引之后无法直接打开的样子),搜索关键词基本都是秒出,打开文件检索具体内容的时候根据不同大小的文件需要几秒钟,具体速度和Notepad差不多。
    Miaoz
        16
    Miaoz  
       2013-04-07 17:35:17 +08:00
    @gdm 楼主,也许你需要这个。
    http://wenxian.fanren8.com/
    yeshang
        17
    yeshang  
       2013-04-07 19:17:20 +08:00
    x-beta.info 里面很多文本软件, 有符合你的
    yeshang
        18
    yeshang  
       2013-04-07 19:17:48 +08:00
    gdm
        19
    gdm  
    OP
       2013-04-15 09:27:38 +08:00
    @clino 百度桌面搜索因为是国产,我怕他没节操去搜我未指定文件夹……我是胆小鬼。不过是个不错的选项。
    @batfree Windows 好像有点难装,一会切到 suse 试试看。
    @Semidio 很好!搜索速度非常快!
    @Miaoz 竟然有人做了这个,真是泪流满面啊!
    @yeshang 挺怀念这站,可惜作者越来越文艺,经常不讲软件而是讲一些幼稚的感言……

    感谢大家,总结一下个人的选择。
    http://wenxian.fanren8.com/ 应付日常搜索。
    当以上方法无果时,使用 DocFetcher 搜索本地文件。
    善哉!
    weakish
        20
    weakish  
       2013-08-30 21:21:25 +08:00
    @gdm 「考虑过放 jekyll ,但想想一来 google 的蜘蛛可能不抓,二来这么多东西放一个 repo 万一 github 封号咋办,这不白传了么……」

    現在 gitcafe.com 也提供 jekyll 服務了,可以專門註冊一個賬號傳這個 repo。
    700多M txt,如果轉成git repo的話,文本的壓縮率應該很高,所以repo的大小應該小於 gitcafe 的免費額度 512M 吧。

    然後 京東的git託管支持一鍵搬家 https://code.jd.com/busi/project/addProject?toMove=moveFlag

    可以讓它幫妳備份,避免自己重複上傳。

    如果有意分享發佈這些文本文件,而gitcafe不夠用的話,我手頭的VPS空間有很多剩餘,可以放妳的站點。(初步打算基於 git repo,用jekyll或者pelican轉成網站。這樣妳如果要更新內容的話,只要git push就可以了。如果用戶要對文本勘誤的話,也可以很方便地發patch或者pull request。)至於google抓取的話,可以給google提交sitemap,確保google不抓漏。
    gdm
        21
    gdm  
    OP
       2013-08-31 07:58:54 +08:00
    @weakish 谢谢。书的主体是别人发的网络收集,每个单本都很容易获得,其中 doc 文件的比例非常高,还在逐步整理成 txt 。感觉如果公布, git 模式还是最好的。不过认真看时,对于用字比较生僻的书籍,错字不是一般的多,贸然上传有传播流毒之嫌,所以当初考虑还是以本地为主。另外自己干了一件蠢事,把同一书籍存成多个文件的用 cmd 合并了,导致单文件过大,想重新下载也没了……
    ddup
        22
    ddup  
       2020-01-12 20:36:30 +08:00
    桌面全文搜索小于 10MB 的话,归海数据是不错的选择。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2149 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 00:47 · PVG 08:47 · LAX 16:47 · JFK 19:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.