以图搜图要靠算力么？

都在说算法
我写了数据库中已经有 image hash 数据，就是特征值
我是想问这些特征值还有没有“特征”，例如长度之类，当两者长度不同就是不相似，可以直接 continue 跳过不计算
已有特征值包括 openCV 的：
img_hash_PHash
img_hash_AverageHash
img_hash_RadialVarianceHash
img_hash_ColorMomentHash
等

图集

点算力

算力

Hash

12 条回复 2020-07-02 10:25:02 +08:00

jtacm

2020-07-01 14:35:08 +08:00

kd tree
ball tree

jtacm

2020-07-01 14:36:33 +08:00

approximate nearest neighbor search

2020-07-01 15:33:56 +08:00

必然有快速算法，买下整个全世界服务器都不够 google 用

ddgweb

2020-07-01 15:49:39 +08:00

有，和搜索引擎思路一样，提前编码索引，然后对比交叉直接对比索引，和你图片没有关系了，哪怕你单张图片有 20M，识别只要 0.0001s

azcvcza

2020-07-01 16:14:38 +08:00

应该是会把整个图片矩阵算出一个特征值，然后根据特征值匹配的吧。应该不会实时跑矩阵相似运算的吧

zjsxwc

2020-07-01 16:48:39 +08:00

图片提取特征后，计算图片特征矩阵之间的距离范数应该没有多大计算量，真的数据量大了就加机器呗

triptipstop

2020-07-01 16:52:01 +08:00

请参见，机器学习，特征工程。

zjsxwc

2020-07-01 16:56:43 +08:00

而且可以先对 B 集里面每个图片归类，比如 B 集下面可以有猫、狗、人，鱼这 4 个归类的代表特征矩阵，要搜索 A 时先让 A 与 4 个归类的代表特征矩阵比较，然后再在最像的归类下的图片比较；
类似的，对归类再归类，这样多分几个层次，运算量就小下来了。

Tromso

2020-07-01 16:57:43 +08:00

关键词 simhash, faiss

zjsxwc

2020-07-01 17:01:45 +08:00

这归类的归类的 N 层分类，
可以工程上，定期，抽取 M 个随机图片作为第一级归类的 M 个代表特征矩阵，然后在在每个归类特征下统一的方式构建第二级归类，其实就是索引了

Morriaty

2020-07-01 17:10:47 +08:00

抽象出的问题是 ANN (approximate nearest neighbor), 一般方法有

- LSH and multiprobe LSH for euclidean distance
- partition trees for euclidean/cosine distance
- clustering-based approaches, including product quantization

python 的话就直接调用 annoy

ruanimal

2020-07-02 10:25:02 +08:00

有，图库的图片先算好 simhash 或者 briefhash