关于HanLP内置model的语料库

bqwu · April 4, 2020, 9:11am

hankcs老师好，打扰了，对于HanLP 1.x 内置的分词模型所对应的训练语料库，有以下问题想请教一下：
（1）CoreNatureDictionary中词语及词频是从哪一个词典来的呢？是MSR语料的词典msr_training.utf8吗？
（2）ViterbiSegment的二元语法统计，用到的核心词典也同样是MSR语料的词典msr_training.utf8吗？
（3）CustomDictionary中词语及词频是从哪一个词典来的呢？是您自己收集的吗？
（4）默认的PerceptronLexicalAnalyzer中PerceptronCWSModelPath是large/cws.bin，这个large下面的cws.bin是基于哪一个语料库训练出来的？是书中7.2.2节中的国家语委语料库吗？还是MSR的语料库？

谢谢～

GuoHuiChen · April 6, 2020, 11:15am

建议下载源代码查看

bqwu · April 6, 2020, 11:40am

已经下载源代码查看，但还是有这些不清楚的地方，希望能得到进一步解答，谢谢啦

hankcs · April 10, 2020, 6:58pm

文档

不是，同上

来源比较复杂，GitHub issue区有类似的问题，建议翻一翻。

是自行标注的1亿字语料库。

bqwu · April 11, 2020, 1:30pm

好的，谢谢hankcs老师。这回了解了。想多问一句，1亿字语料库都是您手动标注的？那要花多久呀，有点想象不出来。。。另外，这份语料库应该没有公开吧？

hankcs · April 12, 2020, 6:45pm

肯定不是我一个人标得，必须是流水线作业，而且用了很多自动化的技术。质量管理等问题都在探索过程中，没有公开。