分词准确性的问题,版本 1.7.8

发现部分机构分词解析的问题,不确定是不是使用问题

默认分词 HanLP.segment
第三军医大学 -> [第/mq, 三军/n, 医/ng, 大学/nis]
第四军医大学 -> [第四军/nz, 医/ng, 大学/nis]

开启机构分词模式 enableOrganizationRecognize(true)
第三军医大学 -> [第/mq, 三军医大学/nt]
第四军医大学 -> [第四军/nz, 医大学/nt]

好奇是 “军医” 一词为何识别不出,而且前缀词 “第”、“三” 会被分开,标记的 nt “三军医大学” 也并不是机构团体名称吧

如果你好奇为什么,建议阅读《自然语言处理入门》第八章。如果你只想调库,建议切换一个稍微高级一点的算法

1 Like