trainBigram(MY_CWS_CORPUS_PATH, MY_MODEL_PATH); Segment segment = loadBigram(MY_MODEL_PATH); 这段代码中的,语料是已经分好词的语料; 是不是大家都这样训练出来的分词器再去做分词呢?
监督学习的训练语料都是预先标注好的,也就是已经分好词的语料。
明白了,书本中是介绍了很多分词器训练的方法。谢谢。