V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
revival83
V2EX  ›  问与答

求教各位大神, 300 页的 pdf 病历材料,马赛克遮挡医院名患者名最高效的办法是什么?

  •  
  •   revival83 ·
    PRO
    · Jul 4, 2018 via iPhone · 4432 views
    This topic created in 2860 days ago, the information mentioned may be changed or developed.
    求教各位大神,300 页的 pdf 病历材料,马赛克遮挡医院名患者名最高效的办法是什么?
    35 replies    2018-07-06 15:00:38 +08:00
    nutting
        1
    nutting  
       Jul 4, 2018 via Android
    固定位置?有 pdf 读写的程序组件批量处理一下
    revival83
        2
    revival83  
    OP
    PRO
       Jul 4, 2018 via iPhone
    @nutting 位置不固定,而且 300 页都是 jpg 图片…
    shiny
        3
    shiny  
    PRO
       Jul 4, 2018
    招一个大学生专门干这事。手动狗头
    hundan
        4
    hundan  
       Jul 4, 2018   ❤️ 1
    在 pad 上手动打码,应该会方便点,毕竟触屏,也就 300 页,一个上午应该能打完。
    非要用程序写的话, 可以调用识图的 api,切图识别,然后根据情况调整程序,定位,再打码,应该会比较复杂,如果没写过的话,写起来可能不止一个上午……
    torbrowserbridge
        5
    torbrowserbridge  
       Jul 4, 2018 via Android
    分给 100 人干
    Tetsuchou
        6
    Tetsuchou  
       Jul 4, 2018
    雇个民工打出来涂掉再扫描
    Sanko
        7
    Sanko  
       Jul 4, 2018 via Android
    300 快我手动干了
    revival83
        8
    revival83  
    OP
    PRO
       Jul 4, 2018 via iPhone
    @hundan
    @Sanko 关键是这些 pdf 里的都是图片,直接 photoshop 一页一页打码儿再合成
    PP
        9
    PP  
       Jul 4, 2018 via iPad
    不建议对图片进行识别,千张以下没必要。可以做 pdf2jpg,然后直接对图片进行处理,处理好之后再统一输出成 pdf。中间图片处理环节可以批处理,很多软件提供批处理工具,能分组就分组,不能分组就手动刷。如果没有更好的选择楼主可以试试,毕竟这是个笨办法。
    revival83
        10
    revival83  
    OP
    PRO
       Jul 4, 2018 via iPhone
    @hundan pad 可以找,但是 pdf 里 300 页都是图片,有 pad app 支持吗
    revival83
        11
    revival83  
    OP
    PRO
       Jul 4, 2018 via iPhone
    @PP 这思路不错,我想想办法怎么把 pdf 解压成图片
    PP
        12
    PP  
       Jul 4, 2018 via iPad
    @revival83 有现成的工具啊,各种超星工具套装。老归老,用起来还是很方便的。
    revival83
        13
    revival83  
    OP
    PRO
       Jul 4, 2018 via iPhone
    @PP 我是 Mac 我装个虚拟机看看 h   h   h
    PP
        14
    PP  
       Jul 4, 2018 via iPad
    @revival83 十年前我就是这么干的,去水印,哈哈。记得保留自己做的各个批处理和设置文件,今后工作可能还会用到。
    revival83
        15
    revival83  
    OP
    PRO
       Jul 4, 2018 via iPhone
    @PP 前辈有联系方式吗给一个 想请教请教
    mmnsghgn
        16
    mmnsghgn  
       Jul 4, 2018
    @revival83 你是 mac,自带的预览就已经很强了呀。
    isbase
        17
    isbase  
    PRO
       Jul 4, 2018
    pdf expert 可以批量涂黑或者删除
    stabc
        18
    stabc  
       Jul 4, 2018
    300 页不值得去做批处理。手动。你发帖这时间估计已经码好 100 页了。
    PP
        19
    PP  
       Jul 4, 2018 via iPad
    @revival83 非常抱歉,我历来不在 V 站进行私人联络,大约四五年前仅联络过两次。前辈不敢当,达人数不胜数,怎么排都轮不到我。笨办法倒是有一些,如果您需要,请尽管问,我知道的都会告诉您。
    revival83
        20
    revival83  
    OP
    PRO
       Jul 4, 2018 via iPhone
    @PP 理解理解 😂
    revival83
        21
    revival83  
    OP
    PRO
       Jul 4, 2018 via iPhone
    @zhengjian 貌似发现新大陆!我赶紧去试试!
    PP
        22
    PP  
       Jul 5, 2018 via iPad
    @revival83 抱歉啊,私心作祟。

    我尽量回忆一下当年的做法,纯属笨办法。当年处理 pdf 封装图片时,批量输出是第一步,真正的核心是将图片全部转成 png 灰度格式,因为接下来要用图片软件对这些灰度图片进行批处理。具体办法是通过图片软件内置工具编写批处理脚本,对不同灰度范围或具体灰度值进行不同处理如删除、加重和替换。可能是当年软件 bug 的原因,每次批处理过的图片会有大约 1%的图片被漏过,所以我对批处理后的图片重新执行一次批处理后再做检查筛选。其余的工作都有简单工具,网上应该有许多存档,如何处理应该可以随意了。时间太久,恐有遗漏,姑且当作给有需要的朋友们一点小参考。
    revival83
        23
    revival83  
    OP
    PRO
       Jul 5, 2018 via iPhone
    @PP png jpg 到无所谓只要是我这些图片都是病历,都是密密麻麻的文字中会包含隐私文字,所以每一页都跟看字典似的要读一遍,所以效率很低。没有什么捷径…我的操作是:
    1. Photoshop 打开 pdf 选取一页
    2. 打马赛克
    3. 保存图片
    4. 将所有图片打包 pdf

    想问下把 pdf 一页一页变成图片 在 mac 上有简单的办法吗
    PP
        24
    PP  
       Jul 5, 2018 via iPad
    @revival83 我不清楚,我只 z   d
    PP
        25
    PP  
       Jul 5, 2018 via iPad
    我只知道 windows 下没有问题。
    zzj0311
        26
    zzj0311  
       Jul 5, 2018 via Android
    @revival83 adobe acrobat 可以导出 jpg/png
    KevZhi
        27
    KevZhi  
       Jul 5, 2018 via iPhone
    不想写代码的话就 ocr 以后搜索 搜到结果手动抹 然后校对
    revival83
        28
    revival83  
    OP
    PRO
       Jul 5, 2018 via iPhone
    @zzj0311
    @KevZhi 感谢大家
    laolinn
        29
    laolinn  
       Jul 5, 2018 via iPhone
    @shiny 一份就一两块钱,肯定有大学生抢着来干
    revival83
        30
    revival83  
    OP
    PRO
       Jul 5, 2018
    @laolinn 一份两三百页。。
    revival83
        31
    revival83  
    OP
    PRO
       Jul 5, 2018
    @zhengjian 这个方法我试了,打开之后能把罩住的部分删掉
    revival83
        32
    revival83  
    OP
    PRO
       Jul 5, 2018
    @KevZhi 有推荐的工具吗 老铁
    qvvo
        33
    qvvo  
       Jul 5, 2018
    如果医院和姓名都是打印的,带标题框的,比较容易搜索的那种,
    比如:姓名:xxxx

    可以先用 Adobe acrobat 自动识别一下中文,然后做全文搜索,搜到后就手工打码
    这样总比一页一页自己翻看简单一些
    ccoming
        34
    ccoming  
       Jul 5, 2018
    @revival83 win 上有雪莹虚拟打印,mac 的找找类似的吧。另外,直接在 pdf 上面做线框或者画笔这样的标注,不能打印出来?
    chenjau
        35
    chenjau  
       Jul 6, 2018 via Android
    码农遍地爬的地方竟没人提 shell 和 ghostscript ?随便转
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2536 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 93ms · UTC 15:02 · PVG 23:02 · LAX 08:02 · JFK 11:02
    ♥ Do have faith in what you're doing.