关于HanLP内置model的语料库

hankcs老师好,打扰了,对于HanLP 1.x 内置的分词模型所对应的训练语料库,有以下问题想请教一下:
(1)CoreNatureDictionary中词语及词频是从哪一个词典来的呢?是MSR语料的词典msr_training.utf8吗?
(2)ViterbiSegment的二元语法统计,用到的核心词典也同样是MSR语料的词典msr_training.utf8吗?
(3)CustomDictionary中词语及词频是从哪一个词典来的呢?是您自己收集的吗?
(4)默认的PerceptronLexicalAnalyzer中PerceptronCWSModelPath是large/cws.bin,这个large下面的cws.bin是基于哪一个语料库训练出来的?是书中7.2.2节中的国家语委语料库吗?还是MSR的语料库?

谢谢~

建议下载源代码查看

已经下载源代码查看,但还是有这些不清楚的地方,希望能得到进一步解答,谢谢啦

文档

不是,同上

来源比较复杂,GitHub issue区有类似的问题,建议翻一翻。

是自行标注的1亿字语料库。

2 Likes

好的,谢谢hankcs老师。这回了解了。想多问一句,1亿字语料库都是您手动标注的?那要花多久呀,有点想象不出来。。。另外,这份语料库应该没有公开吧?

肯定不是我一个人标得,必须是流水线作业,而且用了很多自动化的技术。质量管理等问题都在探索过程中,没有公开。