V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lun10439547
V2EX  ›  问与答

求一个相似文件(图片)检查软件,并能生成 md5 的制表,可以方便对比!

  •  
  •   lun10439547 · 2016-09-23 15:14:30 +08:00 · 1474 次点击
    这是一个创建于 2984 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求: 检查相似图片,在第一次检查几十万的图片后,记录每个图片的 md5 数值,之后检查图片是否相似直接对比已经检查过的 md5 数值就可以了,并记录这个新检查的 md5 数值。 讲的有点绕口,但意思还是很明确的!

    关键是后来检查的图片不需要在从新检查所有图片一次,只需要对比下已经检查过的 md5 数值或者其他就可以了。

    7 条回复    2016-09-23 22:54:40 +08:00
    UnisandK
        1
    UnisandK  
       2016-09-23 15:16:00 +08:00
    md5 是肯定不行的。。
    zhiyuan91
        2
    zhiyuan91  
       2016-09-23 15:24:20 +08:00   ❤️ 2
    计算 64 位 simhash ,海明距离在 3 以为的可以认为相似。图片可以预处理一下。
    zhiyuan91
        3
    zhiyuan91  
       2016-09-23 15:25:19 +08:00
    @zhiyuan91 3 以内
    xujinkai
        4
    xujinkai  
       2016-09-23 15:25:37 +08:00
    必然不能是 MD5 , MD5 的特点是数据差一点, MD5 值就变化非常大。
    查图片用的算法生成的值,效果是图片差的不大,值也差的不大,这样值越接近说明图片越相似。
    Izual_Yang
        5
    Izual_Yang  
       2016-09-23 19:52:15 +08:00
    首先,你如果用 md5 ,那就只是一般的文件查重而已,就没必要特意说明是用来检查图片——因为只有每一个字节都相同的图片才是 md5 相同,否则再怎么相似也没用。
    其次,如果你不重新检查所有图片一次,你怎么知道以前的文件还在不在,有没有修改过?
    lun10439547
        6
    lun10439547  
    OP
       2016-09-23 22:38:08 +08:00
    @UnisandK
    @zhiyuan91
    @xujinkai
    @Izual_Yang

    确实如你们所说的,靠 md5 来分辨其实我也可以用,图片来源里固定的几个网站,主要分辨我到底下载过没,当然最好还是能忽略分辨率与裁剪所带来的 md5 值变化。。。。
    Izual_Yang
        7
    Izual_Yang  
       2016-09-23 22:54:40 +08:00 via Android
    @lun10439547 我自己用的是 visipics 。
    另外你说的图站是那些图站,如果是基于 danbooru 的那应该是自带 md5 的吧。
    话说你可以直接用 md5 命名文件……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1017 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 18:53 · PVG 02:53 · LAX 10:53 · JFK 13:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.