海量数据相似度匹配问题

yiwangai1983 · April 10, 2020, 2:35am

现有数据7千万行，想通过一个短语进行海量数据的相似度匹配。有没有相应的解决思路呢？

之前应用都是几千行数据，并且根据业务数据量不会大幅度增长，所以每次都是遍历所有数据进行相似度计算，取相似度高的几十行。如果有海量数据，有没有相应的解决方案呢？

rszhang · April 22, 2020, 1:43am

可以先走搜索引擎,快速召回100条数据,然后在这100条数据中庸相似度计算方法找前几十条,这样可以一定程度上保证速度.
缺陷就是如果搜索结果的100条中不包含最相识的那部分数据,那么结果可能不会很好,这个可以通过优化搜索方式来缓解

justein · May 12, 2020, 2:43pm

我目前采用的就是这个方案，效果非常差。一个可以参考的思路是，计算出目标库的词向量存储到db，然后实时match的时候，用同一个模型算出target sequence的词向量，对词向量进行空间距离计算。

xunqirui · May 13, 2020, 2:17am

这个问题我在使用的时候也有这个情况出现，当时考虑的方法是先通过es获取相似度高的，取出再进行自己需要的相似度计算

AnShengqiang · May 21, 2020, 3:35am

可以了解一下faiss，facebook开源的向量搜索引擎，可以毫秒级返回结果。

AliBug · May 21, 2020, 4:47am

顺着你的线索，还发现了一个 https://github.com/milvus-io/milvus
号称比 faiss 还厉害
https://milvus.io/cn/docs/v0.9.0/about_milvus/overview.md

gujun720 · May 27, 2020, 2:10am

你好，欢迎关注Milvus项目。

Milvus向量搜索引擎就是为了加速海量向量数据的管理与搜索。
最初Milvus从单纯集成使用faiss算法库开始，目前已经做了不少优化，重写。另外Milvus也集成了annoy和hnswlib。

相关的ANN benchmark测试数据可以在这里找到：https://milvus.io/cn/docs/benchmarks_aws

如果觉得Milvus有帮到你，请在github上给我们点个星。

simon3218 · June 2, 2020, 2:34am

我是这样做的，先以 bert 算出句向量，再以 faiss 来进行分桶索引，因为数据量还算大，所以我使用多部 ubuntu 主机进行faiss子索引的建立，最后再将这些子索引进行合并，至于相似比对后的索引号对应到原文句的部分你要自己处理，建议你以某个笔数为一个 chunk 来建立 mapping，句子的id直接mapping到chunk id，再直接换算 sub index，最多两次运算就可以找到原文。我的句子大约有 3 亿句，响应时间约在 0.03 ~ 0.05 秒，其实还可以更快(0.005秒左右)，但 faiss 的部分因为某些原因，所以封闭了 gpu 的运算。至于句向量的质量如何，你可以自己评估，如果不满意 bert，可另选其它工具。

gujun720 · June 2, 2020, 1:23pm

试试Milvus吧，你可以不用这么累的

AliBug · June 2, 2020, 3:18pm

针对这个具体的需求，能不能放个例子到你们的项目上面啊？

simon3218 · June 3, 2020, 3:38am

谢谢你，我看了一下介绍，有时间我会实作看看。

gujun720 · June 4, 2020, 4:53am

你好，可以参考一下这篇技术文章：

https://blog.csdn.net/weixin_44839084/article/details/105492068

AliBug · June 4, 2020, 7:00am