如何比较两个文件的相似度？

tonyzh-cn · June 23, 2022, 1:04pm

如何比较两个文件的相似度？com.hankcs.hanlp.mining.word2vec.DocVectorModel#similarity接口参数是文本字符串。

shane · June 24, 2022, 5:25am

你要比较的是文件本身（比如大小、名称、位置、类型等等），还是文件的内容？
我个人理解，如果是比较两个文件本身用不上HanLP，如果是比较文件内容，直接把内容取出来包装或者分拆成多个字符串是否可行？

tonyzh-cn · June 24, 2022, 8:18am

比较的是内容，但是文件里面可能有图片，HanLP的接口都是字符串，图片怎么处理呢？

shane · June 24, 2022, 9:38am

目前应该处理不了吧，HanLP的定位很明确，处理自然语言的，你想对比图片可以找其他开源的专业工具

kylewangt · June 30, 2022, 8:27am

如果是比较两篇文档的相似度呢，应该怎么处理？