关于利用HanLP进行自定义领域NER任务的一些问题

Enthusiasticho · February 25, 2023, 8:28am

在进行小语种的自定义ner时，我已经利用hanlp工具对生语料获取了tok和pos结果，并人工标注了百余条语料，以期实现对语料中特定实体的识别，但过程中遇到了如下问题，期望得到大家的解答，谢谢！

先前跑脚本demo_plane.py时均获得了model.bin和cws.bin，但在为了防止欠拟合在trainer.train中增加了epochs=200，完善语料库之后再次运行时却报错，想请教原因为何？
recognizer = PerceptronNERecognizer(trainer.train(MY_CORPUS, MY_MODEL).getModel())
jpype._jclass.NullPointerException: None
由于语料获取困难，语料库容量过小（不到200条）影响了自定义标签识别效果，请问这种情况下应如何进行调参？

Enthusiasticho · February 25, 2023, 2:10pm

1.问题以排查，是训练数据格式出了问题