第8.3节中用HanLP标注缺失词性

bqwu · June 25, 2020, 3:34am

您好，
请问P251页中，说到将微软NER语料库转换成PKU格式，使用HanLP标注了缺失的词性。想请教一下，用HanLP处理原始语料时，会得到和原始语料库一致的分词结果吗？如果有不一致的现象，又如何标注词性的？是人为拆分的吗？或者有什么办法强迫HanLP得到一致的分词结果？是用原始语料先训练一个分词模型，然后再分词以得到一致的结果吗？
谢谢～

hankcs · June 26, 2020, 7:17pm

不会，你最好亲自下载看一看MSR官方的语料，看看后面的问题是否还成立。

bqwu · June 27, 2020, 1:38am

嗯，谢谢，突然想清楚了，准备删掉这个问题来着，不好意思，问了一个很不成熟的问题，现在貌似删不掉了。。。MSR的NER语料已经做好了分词，只是缺词性，直接在这个基础上用一个异源的词性标注模型去做就可以了