我直接使用hanLP的NER方法效果以及非常好了,只是有一些特殊类型无法识别,所以我自己制作了 CoNLL 2003
规范的数据集,里面标注了我新想要识别的实体类别,然后我查阅了训练自定义数据集的demo
from hanlp.components.ner_tf import TransformerNamedEntityRecognizerTF
from hanlp.datasets.ner.conll03 import CONLL03_EN_TRAIN, CONLL03_EN_DEV, CONLL03_EN_TEST
tagger = TransformerNamedEntityRecognizerTF()
save_dir = 'data/model/ner/ner_conll03_bert_base_uncased_en'
tagger.fit(CONLL03_EN_TRAIN, CONLL03_EN_DEV, save_dir, transformer='uncased_L-12_H-768_A-12',
metrics='accuracy')
tagger.load(save_dir, metrics='f1')
print(tagger.predict('West Indian all-rounder Phil Simmons eats apple .'.split()))
tagger.evaluate(CONLL03_EN_TEST, save_dir=save_dir, output=False, batch_size=32)
print(f'Model saved in {save_dir}')
这个方法应该是从bert的uncased_L-12_H-768_A-12
预训练模型开始训练的,我想要从现在hanLP已有的基础上训练应该怎么做呢?