如何比较两个文件的相似度?

如何比较两个文件的相似度?com.hankcs.hanlp.mining.word2vec.DocVectorModel#similarity接口参数是文本字符串。

你要比较的是文件本身(比如大小、名称、位置、类型等等),还是文件的内容?
我个人理解,如果是比较两个文件本身用不上HanLP,如果是比较文件内容,直接把内容取出来包装或者分拆成多个字符串是否可行?

比较的是内容,但是文件里面可能有图片,HanLP的接口都是字符串,图片怎么处理呢?

目前应该处理不了吧,HanLP的定位很明确,处理自然语言的,你想对比图片可以找其他开源的专业工具

如果是比较两篇文档的相似度呢,应该怎么处理?