hankcs老师好,打扰了,对于HanLP 1.x 内置的分词模型所对应的训练语料库,有以下问题想请教一下:
(1)CoreNatureDictionary中词语及词频是从哪一个词典来的呢?是MSR语料的词典msr_training.utf8吗?
(2)ViterbiSegment的二元语法统计,用到的核心词典也同样是MSR语料的词典msr_training.utf8吗?
(3)CustomDictionary中词语及词频是从哪一个词典来的呢?是您自己收集的吗?
(4)默认的PerceptronLexicalAnalyzer中PerceptronCWSModelPath是large/cws.bin,这个large下面的cws.bin是基于哪一个语料库训练出来的?是书中7.2.2节中的国家语委语料库吗?还是MSR的语料库?
谢谢~