关于利用HanLP进行自定义领域NER任务的一些问题

在进行小语种的自定义ner时,我已经利用hanlp工具对生语料获取了tok和pos结果,并人工标注了百余条语料,以期实现对语料中特定实体的识别,但过程中遇到了如下问题,期望得到大家的解答,谢谢!

  1. 先前跑脚本demo_plane.py时均获得了model.bin和cws.bin,但在为了防止欠拟合在trainer.train中增加了epochs=200,完善语料库之后再次运行时却报错,想请教原因为何?
    recognizer = PerceptronNERecognizer(trainer.train(MY_CORPUS, MY_MODEL).getModel())
    jpype._jclass.NullPointerException: None

  2. 由于语料获取困难,语料库容量过小(不到200条)影响了自定义标签识别效果,请问这种情况下应如何进行调参?

1 Like

1.问题以排查,是训练数据格式出了问题

1 Like