请问在哪里能找到制作自定义ner数据集的教程

rinz · February 16, 2021, 3:15pm

我想要在比如ner/msra的基础上添加自己的实体分类并针对该分类做训练以实现实体识别出我的自定义分类；
当前我看到的自定义领域命名实体识别这段里看到的是

可以在HanLP的标注基础上进行校正，这样工作量更小。样本标注了数千个之后，生语料就被标注成了熟语料。

我想知道用什么工具，如何制作自己的数据集，数据集的规范在哪里查看

ps：我看了https://www.hanlp.com/上面的语料库功能，不知道哪个功能可以作为命名实体识别的标注，感觉一个都不像

hankcs · February 16, 2021, 4:07pm

开源的有brat或docanno，商业的有 https://www.hanlp.com/

HanLP预标注，然后人工校对

We mostly follow the conventional file format of each NLP task instead of re-inventing them. Thus, we use .tsv for tagging and .conllu for parsing etc. For more details, refer to datasets.

本论坛主要讨论开源，请移步 https://bbs.hanlp.com 向工作人员提问。