如何在hanLP现有的结果集上训练自己新增的实体识别类型

rinz · February 27, 2021, 2:17pm

我直接使用hanLP的NER方法效果以及非常好了，只是有一些特殊类型无法识别，所以我自己制作了 CoNLL 2003规范的数据集，里面标注了我新想要识别的实体类别，然后我查阅了训练自定义数据集的demo

from hanlp.components.ner_tf import TransformerNamedEntityRecognizerTF
from hanlp.datasets.ner.conll03 import CONLL03_EN_TRAIN, CONLL03_EN_DEV, CONLL03_EN_TEST

tagger = TransformerNamedEntityRecognizerTF()
save_dir = 'data/model/ner/ner_conll03_bert_base_uncased_en'
tagger.fit(CONLL03_EN_TRAIN, CONLL03_EN_DEV, save_dir, transformer='uncased_L-12_H-768_A-12',
           metrics='accuracy')
tagger.load(save_dir, metrics='f1')
print(tagger.predict('West Indian all-rounder Phil Simmons eats apple .'.split()))
tagger.evaluate(CONLL03_EN_TEST, save_dir=save_dir, output=False, batch_size=32)
print(f'Model saved in {save_dir}')

这个方法应该是从bert的uncased_L-12_H-768_A-12预训练模型开始训练的，我想要从现在hanLP已有的基础上训练应该怎么做呢？

hankcs · February 27, 2021, 6:23pm

请使用新加的finetune参数：

rinz · February 28, 2021, 3:46am

感谢大佬的更新
我还有个问题，我做的CoNLL 2003格式的数据集，能跑在MSRA_NER_ALBERT_BASE_ZH这种不是CoNLL的预训练模型上吗，然后如果不能的话，有没有CoNLL 的中文预训练模型呢

hankcs · February 28, 2021, 4:42am

与数据格式无关，只要是同种模型同种语言就可以。