计算机视觉模型，需求是对比两张图片的相似度，求指点或者有大佬愿意尝试一下，可有偿

@ShadowPower 目前我是搞了每 10 个像素颜色分别对比平均 HSV 的差异来获取颜色相似度，然后使用 mmpose 来获取姿态相似度，这个姿态还是利用 GPT 生成的关键点夹角和相对距离得到的，也结合了这个提取图片特征来对比相似度，然后加权平均，但还是效果不理想，主要是颜色部分，不同的饱和度和亮度，在整体图片中，从人眼看，差距不大，但对计算数据来说，差异很大，这块处理不了，然后老板觉得我做的这个只是勉强能用，希望找一个模型，能提供成对的相似度的图片和不相似的图片，持续训练，得到一个更准确的评判模型，，，，因为我目前了解的计算机视觉方面，还是图片分类和识别比较多，像这种不针对特定内容的比对，我是没找到，让我自己做一个，我也没完全这个能力和知识储备

mightybruce

Apr 11, 2024

其实就是多媒体信息检索了，和文本检索原理像 es 、solr 一样，除了提取特征外。
大致是多选取几个角度去提取特征，建立起词袋模型，然后还是 tf-idf ，词袋模型里面的 word 就是各种图像的特征，你可以选几种，色彩一个特征、纹理一个特征，混合特征，最后基于这个做各种距离比较
我很多年前用过 LIRE (Lucene Image Retrieval)是一个基于内容的图像检索的开源库，现在已经有更新的东西了
可以看看这个
https://zhuanlan.zhihu.com/p/147509861

相关入门可以看看斯坦福的经典书 information retrieval
https://nlp.stanford.edu/IR-book/information-retrieval-book.html

mightybruce

Apr 11, 2024

你要多找找一些深度学习模型能够提取出反应这种差异，多试试

ShadowPower

Apr 11, 2024

@daohuo 按理来说，如果用卷积神经网络，不同饱和度和亮度应该不会对结果产生影响，除非训练阶段专门区分了它们……

0xFDA64

Apr 11, 2024

你这个需求估计得按照你们的数据集来训练，才能到达预期效果。因为公开模型的训练用的相似照片和你的需求不一样，例如你想要综合衣服、姿态、背景来做相似度比较，但是别人模型训练时的相似图片只是简单的两只狗。

如果要自己训练，模型训练不难，难的是准备你们的数据集。你不是搞这个，建议申请好预算找人，或者多试试公开工具，效果差不多就行了。

zhouquan03

Apr 11, 2024

meta 的 dinov2 提取特征试试，不过由于训练数据的限制，风格、色彩等等，效果肯定不会很好的。我在用的这个工具： https://github.com/vra/dinov2-retrieval

daohuo

Apr 11, 2024

@ShadowPower 要求是不同颜色有影响，不同饱和度和亮度按照人眼的视觉感觉有影响，就是在人眼下，一定范围内，饱和度和亮度调整不会改变对颜色的认知，但是超过一定范围就会了

daohuo

Apr 11, 2024

@mightybruce 好的，我试试看看

NCE

Apr 11, 2024

用 CNN/RNN ，类似识别车牌号的算法。

daohuo

Apr 11, 2024

@0xFDA64 你的意思是，还是用提取特征计算相似度的方法，但是这个提取特征的模型需要自己准备数据集来训练吗？有没有推荐的开源项目我试一下

mightybruce

Apr 11, 2024

@daohuo 需要根据提取的特征进行训练的，我多年前用 LIRE 也是要用你自己的数据集提取的特征去训练

图像检索这块就是这么做的

DIMOJANG

Apr 11, 2024

感觉听你的描述，可以试试用一些类似 BD-CSPN 、TIM 之类的基于度量学习的 Transductive 方法。应该可以满足“并且随着训练的材料越多，模型越准确”的要求。骨干网络选一个强一点的预训练网络应该就可以提取到比较复杂的特征。

daohuo

Apr 11, 2024

@DIMOJANG 好的，感觉这个度量学习比较接近需求，我去看看

NoOneNoBody

Apr 11, 2024

你的描述并没有说清需求，这个“相似度”是如何定义的？
一个百分比数值？那还需要定义权重，颜色、主体(如人物)哪个重要
如果没有定义，纯整体比较，计算 mse 就是了，很简单的一两行代码(用 pyvips 就一行)
一般说“相似度”就是求 mse ，但以你的描述，则是比较复杂，颜色、明暗度都要判断，还有主体姿态

其他方面去看 opencv.img_hash 模块的各种计算，模块内有两图计算值 compute 方法，得出的是单一浮点数

如果主体的姿态还需要描述的话，例如站着、坐着、单手上举……需要能描述的模型
如果只是找出不同，不需要描述，按下面找茬方式就行

找出不同之处？就是类似“找茬”游戏
找茬核心是 skimage.metrics.structural_similarity ，根据其计算结果，在 mask 上描线
网上有例子和代码

其实两图尺寸和内容基本一致的话，找成对相似是比较容易的，都有现成的模块可以完成
我遇到的难题是旋转、裁边（将原图裁掉边缘部分，多数是因为切去水印，然后放大到原尺寸）……这些就很棘手

ihciah

Apr 11, 2024

https://github.com/ihciah/deep-fashion-retrieval
贴一个 7 年前的代码，是不是类似需求？评判相似度并做 retrieval 。
“相似”的定义是不好描述的，所以需要你收集相似的和不相似的样本并 finetune 一下网络。

tfdetang

Apr 11, 2024

如果是私有场景，估计很难直接通过开源模型实现吧，最起码要自己训练或者(few shot)。我个人觉得这个场景类似于小区的人脸识别门禁那种 pair-wise 的思路，是用两个正例对与负例组成样本对来找出相似度边界

DigitalG

Apr 11, 2024

听上去你的标准有些模糊。打分标准不明确的话，不是很好做。至少细化下“如何判断相似度”的规则，要达到能够给标注团队看过之后能制作训练集的程度吧。

而且你提到人眼也无法判断的情况。我倾向建议不要依赖单一模型去解决。比如由多个不同的模型分别或依次判断，单一模型只提供某个方面的相似度评分。最后综合判断，你可以简单设置多个阈值，每个模型的评分可以有自己的权重（或者这个步骤用另一个回归模型得到一个总分）。

另外，上面说的多个不同的模型，也可以加入传统 cv 的方法去判断饱和度等，不一定非得深度学习。（这也不会影响训练材料越多，模型约准确的要求）